Gemma 4 en local : classe frontière, coût zéro
Le modèle Gemma 4 26B de Google tourne localement sur Apple Silicon et se situe à quelques points de GPT-5.2 et Claude Opus 4.5 sur les benchmarks de raisonnement — redéfinissant le workflow hybride local-cloud pour le codage assisté par IA.
Il y a deux jours, Google DeepMind a publié Gemma 4, et je le fais tourner en local sur mon MacBook depuis. En résumé : un modèle open-weight sous licence Apache 2.0, qui fonctionne entièrement hors ligne sur du matériel grand public, est désormais compétitif avec les modèles commerciaux pour lesquels je paie un abonnement mensuel. C’est une phrase que je ne m’attendais pas à écrire en 2026.
Ce qu’est réellement Gemma 4
Gemma 4 est une famille de quatre modèles — E2B, E4B, 26B A4B et 31B Dense — construits à partir de la même base de recherche que Gemini 3, le modèle propriétaire de Google. Celui que j’utilise est le 26B A4B, un modèle Mixture-of-Experts avec 25,2 milliards de paramètres au total, mais seulement 3,8 milliards actifs pendant l’inférence. En pratique, cela signifie qu’il tourne à peu près à la vitesse d’un modèle 4B tout en offrant une intelligence de classe 27B—31B.
L’architecture utilise 128 petits experts, en activant huit par token plus un expert partagé toujours actif. Ce n’est pas qu’une curiosité de benchmark — cela se traduit directement par une pression mémoire réduite et une génération de tokens plus rapide sur du matériel à mémoire unifiée comme Apple Silicon.
Sur mon MacBook Pro M5 Max avec 128 Go de mémoire unifiée, la version quantifiée Q8_0 (environ 27 Go) se charge confortablement et laisse largement de la marge pour faire tourner un IDE, un navigateur et d’autres outils simultanément. Même le 31B Dense non quantifié tiendrait, mais la variante MoE est le choix le plus judicieux pour le codage interactif où la latence compte.
Les benchmarks racontent une histoire claire
C’est ici que les choses deviennent intéressantes. J’ai comparé les scores publiés de Gemma 4 avec les deux modèles commerciaux que j’utilise au quotidien — Claude Opus 4.5 et GPT-5.2 — plus Gemma 3 pour illustrer le saut générationnel :
| Benchmark | Gemma 4 26B A4B | Gemma 4 31B | Gemma 3 27B | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|---|---|
| MMLU Pro | 82,6 % | 85,2 % | 67,6 % | 89,5 % | 75,4 % |
| GPQA Diamond | 82,3 % | 84,3 % | 42,4 % | 87,0 % | 92,4 % |
| AIME 2025/26 | 88,3 % | 89,2 % | 20,8 % | ~87 % | 100 % |
| LiveCodeBench v6 | 77,1 % | 80,0 % | 29,1 % | — | — |
| Codeforces ELO | 1718 | 2150 | 110 | — | — |
| SWE-bench Verified | — | — | — | 80,9 % | 55,6 % |
| MMMU Pro (Vision) | 73,8 % | 76,9 % | 49,7 % | — | — |
| BigBench Extra Hard | 64,8 % | 74,4 % | 19,3 % | — | — |
| Tau2 Agentic (moy.) | 68,2 % | 76,9 % | 16,2 % | — | — |
Plusieurs éléments sautent aux yeux. Gemma 4 26B A4B obtient 82,3 % sur GPQA Diamond — du raisonnement scientifique de niveau doctorat — contre 87 % pour Claude Opus 4.5 et 92,4 % pour GPT-5.2. Ce n’est pas la parité, mais c’est suffisamment proche pour que l’écart se mesure en points de pourcentage plutôt qu’en niveaux de capacité. Sur les problèmes de compétition mathématique AIME, il atteint 88,3 % contre les 100 % parfaits de GPT-5.2. Sur les benchmarks de codage comme LiveCodeBench et Codeforces, les scores de Gemma 4 sont suffisamment solides pour que les comparaisons directes avec les modèles propriétaires ne soient même pas disponibles — ils ne publient tout simplement pas sur les mêmes benchmarks.
Le bond par rapport à Gemma 3 est sidérant. AIME est passé de 20,8 % à 88,3 %. LiveCodeBench a triplé. GPQA a presque doublé. Le ELO Codeforces est passé de 110 (à peine fonctionnel) à 1718 (niveau expert). Le mode thinking — où le modèle raisonne étape par étape avant de répondre — en est le principal moteur.
Avertissements importants : les versions des benchmarks diffèrent selon les fournisseurs (AIME 2025 vs 2026), tous les modèles ne publient pas sur les mêmes benchmarks, et les scores auto-déclarés doivent toujours être pris avec un certain recul.
Mon workflow de codage : Gemma 4 local + Claude Code + Codex
La vraie valeur d’un modèle local puissant n’est pas de remplacer l’IA cloud — c’est de créer un workflow hybride où l’on utilise le bon modèle pour la bonne tâche.
Voici comment je travaille :
Gemma 4 via Ollama gère le travail fréquent et à faible enjeu. Complétion rapide de code, génération de boilerplate, suggestions de refactoring, explication de code inconnu, écriture de tests pour des fonctions bien définies, génération de documentation. C’est le type de travail qui survient des dizaines de fois par heure. Le faire tourner en local signifie zéro latence vers une API, aucun coût de tokens, aucune limite de débit, et mon code ne quitte jamais ma machine. Pour un CPTO dans une entreprise de vérification d’identité, ce dernier point compte.
Claude Code gère les tâches d’ingénierie complexes et multi-étapes. Décisions d’architecture, débogage de problèmes subtils répartis sur plusieurs fichiers, travail en parallèle via des git worktrees, construction de fonctionnalités nécessitant une compréhension du contexte complet de la base de code. Les capacités agentiques de Claude Code — exécuter des commandes, modifier des fichiers, gérer des workflows — restent en avance sur ce qu’un modèle local peut faire de manière fiable. La fenêtre de contexte de 200K tokens et la qualité du raisonnement long justifient l’abonnement pour ce niveau de travail.
Codex d’OpenAI comble le vide pour le prototypage rapide et les scripts jetables. Quand j’ai besoin d’un utilitaire rapide, d’un pipeline de transformation de données ou d’un script d’automatisation ponctuel, Codex est rapide et suffisamment bon.
La mise en place pratique est simple. Ollama fait tourner Gemma 4 en local, exposé comme un endpoint API. Claude Code se connecte à l’API d’Anthropic pour le travail de fond. Le modèle mental est simple : si je serais à l’aise pour déléguer la tâche à un développeur junior compétent, Gemma 4 s’en charge. Si cela demande un jugement de niveau senior, je route vers Claude Code.
Avec le support natif de function-calling de Gemma 4 et sa fenêtre de contexte de 256K tokens, le niveau local est devenu significativement plus capable. Je peux passer des fichiers entiers ou même de petits dépôts dans le contexte. Le modèle gère la sortie JSON structurée de manière fiable, ce qui est essentiel pour toute intégration d’outillage.
Pourquoi Apache 2.0 compte
Gemma 3 était livré avec la licence “Gemma Open” — utilisable, mais avec des conditions et restrictions spécifiques à Google. Gemma 4 passe à Apache 2.0. Aucune restriction d’usage, aucune limite d’utilisateurs actifs mensuels, aucune politique d’utilisation acceptable au-delà des conditions standard d’Apache.
Pour quiconque construit des produits ou des outils internes basés sur ces modèles, c’est le vrai titre. Vous pouvez le fine-tuner, l’intégrer, le distribuer commercialement et diffuser des dérivés sans surcharge juridique. Le terrain de jeu des licences entre Gemma 4, Qwen et les modèles Mistral est désormais à niveau. La licence communautaire Llama 4 de Meta, avec sa limite de 700M d’utilisateurs actifs mensuels, est plus restrictive en comparaison.
Le bilan
Un modèle qui tourne sur un MacBook, ne coûte rien par token, garde toutes les données en local, est distribué sous Apache 2.0, et se situe à quelques points de pourcentage de GPT-5.2 et Claude Opus 4.5 sur la plupart des benchmarks de raisonnement — c’est un véritable point d’inflexion dans notre façon de construire avec l’IA.
Je n’abandonne pas Claude Code ni Codex. Les modèles commerciaux restent meilleurs sur les tâches les plus difficiles, et la différence compte quand on travaille sur des systèmes en production. Mais le plancher s’est considérablement élevé. Les 80 % de routine du travail de codage assisté par IA peuvent désormais se faire entièrement sur l’appareil, en privé, gratuitement.
Pour les CTO qui évaluent leur stack d’outils IA : l’approche hybride local-plus-cloud n’est plus un compromis. C’est l’architecture qui fait le plus de sens — économiquement, pratiquement, et du point de vue de la gouvernance des données.
Pour la suite pratique — comment câbler concrètement Gemma 4 dans une session Claude Code via LM Studio pour que les deux modèles travaillent ensemble dans la même boucle — voir Câbler Gemma 4 dans Claude Code.
Sources : Google Gemma 4 model card (2 avril 2026), documentation Anthropic Claude Opus 4.5, notes de version OpenAI GPT-5.2, benchmarks Vellum AI, Artificial Analysis, Hugging Face.