Skip to content
Zurück zu Technik
GenAI · 7 Min. Lesezeit

Gemma 4 lokal betreiben: Frontier-Klasse, keine Kosten

Googles Gemma 4 26B läuft lokal auf Apple Silicon und liegt bei Reasoning-Benchmarks nur einstellige Prozentpunkte hinter GPT-5.2 und Claude Opus 4.5 — das verändert den lokalen Plus-Cloud AI-Coding-Workflow grundlegend.

Vor zwei Tagen hat Google DeepMind Gemma 4 veröffentlicht, und seitdem lasse ich es lokal auf meinem MacBook laufen. Die Kurzfassung: Ein Open-Weight-Modell unter Apache 2.0, das komplett offline auf Consumer-Hardware läuft, ist inzwischen konkurrenzfähig mit den kommerziellen Modellen, für die ich monatliche Abonnements bezahle. Das ist ein Satz, den ich 2026 nicht erwartet hätte zu schreiben.

Was Gemma 4 tatsächlich ist

Gemma 4 ist eine Familie von vier Modellen — E2B, E4B, 26B A4B und 31B Dense — aufgebaut auf demselben Forschungsstack wie Googles proprietäres Gemini 3. Das Modell, das ich betreibe, ist das 26B A4B, ein Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen aber nur 3,8 Milliarden während der Inferenz aktiv sind. In der Praxis bedeutet das: Es läuft ungefähr mit der Geschwindigkeit eines 4B-Modells, liefert aber Intelligenz auf dem Niveau der 27B-31B-Klasse.

Die Architektur verwendet 128 kleine Experten, von denen acht pro Token aktiviert werden, plus ein geteilter, permanent aktiver Experte. Das ist nicht nur eine Benchmark-Kuriosität — es übersetzt sich direkt in geringeren Speicherdruck und schnellere Token-Generierung auf Unified-Memory-Hardware wie Apple Silicon.

Auf meinem MacBook Pro M5 Max mit 128 GB Unified Memory lädt die Q8_0-quantisierte Version (ca. 27 GB) bequem und lässt genug Spielraum, um gleichzeitig eine IDE, einen Browser und andere Tools zu betreiben. Selbst das nicht-quantisierte 31B Dense würde passen, aber die MoE-Variante ist die klügere Wahl für interaktives Coding, bei dem Latenz zählt.

Die Benchmarks sprechen eine klare Sprache

Hier wird es interessant. Ich habe die berichteten Scores von Gemma 4 mit den beiden kommerziellen Modellen verglichen, die ich täglich nutze — Claude Opus 4.5 und GPT-5.2 — plus Gemma 3, um den Generationssprung zu verdeutlichen:

BenchmarkGemma 4 26B A4BGemma 4 31BGemma 3 27BClaude Opus 4.5GPT-5.2
MMLU Pro82,6 %85,2 %67,6 %89,5 %75,4 %
GPQA Diamond82,3 %84,3 %42,4 %87,0 %92,4 %
AIME 2025/2688,3 %89,2 %20,8 %~87 %100 %
LiveCodeBench v677,1 %80,0 %29,1 %
Codeforces ELO17182150110
SWE-bench Verified80,9 %55,6 %
MMMU Pro (Vision)73,8 %76,9 %49,7 %
BigBench Extra Hard64,8 %74,4 %19,3 %
Tau2 Agentic (Durchschnitt)68,2 %76,9 %16,2 %

Einige Dinge stechen heraus. Gemma 4 26B A4B erreicht 82,3 % bei GPQA Diamond — wissenschaftliches Reasoning auf Graduiertenniveau — verglichen mit 87 % für Claude Opus 4.5 und 92,4 % für GPT-5.2. Das ist keine Parität, aber nah genug, dass der Abstand in Prozentpunkten gemessen wird und nicht in Fähigkeitsstufen. Bei AIME-Mathematikwettbewerbsaufgaben erreicht es 88,3 % gegenüber den perfekten 100 % von GPT-5.2. Bei Coding-Benchmarks wie LiveCodeBench und Codeforces sind die Gemma-4-Ergebnisse stark genug, dass direkte Vergleiche mit den proprietären Modellen gar nicht möglich sind — diese berichten schlicht nicht über dieselben Benchmarks.

Der Sprung von Gemma 3 ist atemberaubend. AIME stieg von 20,8 % auf 88,3 %. LiveCodeBench hat sich verdreifacht. GPQA hat sich fast verdoppelt. Die Codeforces-ELO ging von 110 (kaum funktionsfähig) auf 1718 (Expertenniveau). Der Thinking-Modus — bei dem das Modell Schritt für Schritt nachdenkt, bevor es antwortet — ist der wesentliche Treiber.

Wichtige Einschränkungen: Benchmark-Versionen unterscheiden sich zwischen den Anbietern (AIME 2025 vs. 2026), nicht alle Modelle berichten über dieselben Benchmarks, und selbst gemeldete Scores sollten immer mit einer gewissen Skepsis betrachtet werden.

Mein Coding-Workflow: Lokales Gemma 4 + Claude Code + Codex

Der eigentliche Wert eines starken lokalen Modells liegt nicht darin, cloudbasierte KI zu ersetzen — sondern einen hybriden Workflow zu schaffen, bei dem man das richtige Modell für die richtige Aufgabe einsetzt.

So arbeite ich aktuell:

Gemma 4 via Ollama übernimmt die hochfrequenten, unkritischen Aufgaben. Schnelle Code-Completions, Boilerplate-Generierung, Refactoring-Vorschläge, Erklärung von unbekanntem Code, Tests für klar definierte Funktionen schreiben, Dokumentation generieren. Das sind die Dinge, die dutzende Male pro Stunde passieren. Lokal betrieben bedeutet das: keine Latenz zu einer API, keine Token-Kosten, keine Rate Limits, und mein Code verlässt niemals meinen Rechner. Als CPTO bei einem Identity-Verification-Unternehmen ist gerade der letzte Punkt relevant.

Claude Code übernimmt die komplexen, mehrstufigen Engineering-Aufgaben. Architekturentscheidungen, Debugging subtiler Probleme über mehrere Dateien hinweg, paralleles Arbeiten mit Git Worktrees, Features bauen, die Verständnis des gesamten Codebase-Kontexts erfordern. Claude Codes agentische Fähigkeiten — Befehle ausführen, Dateien bearbeiten, Workflows managen — sind nach wie vor dem überlegen, was ein lokales Modell zuverlässig leisten kann. Das 200K-Kontextfenster und die Qualität des Long-Form-Reasonings rechtfertigen das Abonnement für diese Stufe der Arbeit.

OpenAIs Codex füllt die Lücke für schnelles Prototyping und Einweg-Skripte. Wenn ich ein schnelles Utility, eine Datentransformations-Pipeline oder ein einmaliges Automatisierungsskript brauche, ist Codex schnell und gut genug.

Das praktische Setup ist unkompliziert. Ollama betreibt Gemma 4 lokal, exponiert als API-Endpunkt. Claude Code verbindet sich mit der Anthropic-API für die schweren Aufgaben. Das mentale Modell ist einfach: Wenn ich die Aufgabe bedenkenlos an einen kompetenten Junior-Entwickler delegieren würde, übernimmt Gemma 4. Wenn Senior-Level-Urteilsvermögen gefragt ist, routed sie zu Claude Code.

Mit Gemma 4s nativem Function-Calling-Support und dem 256K-Kontextfenster ist die lokale Stufe deutlich leistungsfähiger geworden. Ich kann ganze Dateien oder sogar kleine Repositories in den Kontext geben. Das Modell liefert zuverlässig strukturierten JSON-Output, was für jede Art von Tooling-Integration essenziell ist.

Warum Apache 2.0 wichtig ist

Gemma 3 wurde mit der “Gemma Open”-Lizenz ausgeliefert — nutzbar, aber mit Google-spezifischen Bedingungen und Einschränkungen. Gemma 4 wechselt zu Apache 2.0. Keine Nutzungsbeschränkungen, keine Limits für monatlich aktive Nutzer, keine Acceptable-Use-Policies jenseits der Standard-Apache-Bedingungen.

Für alle, die Produkte oder interne Tools auf Basis dieser Modelle bauen, ist das die eigentliche Schlagzeile. Man kann es feintunen, einbetten, kommerziell ausliefern und Ableitungen verteilen — ohne rechtlichen Overhead. Das Lizenz-Spielfeld zwischen Gemma 4, Qwen und Mistral-Modellen ist jetzt ausgeglichen. Metas Llama-4-Community-Lizenz mit ihrem 700M-MAU-Limit ist im Vergleich restriktiver.

Das Fazit

Ein Modell, das auf einem MacBook läuft, nichts pro Token kostet, alle Daten lokal hält, unter Apache 2.0 ausgeliefert wird und bei den meisten Reasoning-Benchmarks nur einstellige Prozentpunkte hinter GPT-5.2 und Claude Opus 4.5 liegt — das ist ein echter Wendepunkt für die Art, wie wir mit KI bauen.

Ich verabschiede mich nicht von Claude Code oder Codex. Die kommerziellen Modelle sind bei den schwierigsten Aufgaben nach wie vor besser, und der Unterschied zählt, wenn man an Produktivsystemen arbeitet. Aber das Niveau hat sich dramatisch gehoben. Die routinemäßigen 80 % der KI-gestützten Coding-Arbeit können jetzt vollständig auf dem eigenen Gerät stattfinden, privat und kostenlos.

Für CTOs, die ihren KI-Tooling-Stack evaluieren: Der hybride Ansatz aus lokal und Cloud ist kein Kompromiss mehr. Er ist die Architektur, die am meisten Sinn ergibt — wirtschaftlich, praktisch und aus Sicht der Daten-Governance.

Wer den praktischen Nachschlag sucht — wie man Gemma 4 über LM Studio konkret in eine Claude-Code-Session einbindet, sodass beide Modelle in derselben Schleife zusammenarbeiten — findet ihn unter Gemma 4 in Claude Code einbinden.


Quellen: Google Gemma 4 Model Card (2. April 2026), Anthropic Claude Opus 4.5 Dokumentation, OpenAI GPT-5.2 Release Notes, Vellum AI Benchmarks, Artificial Analysis, Hugging Face.

gemma4 local-llm apple-silicon ollama coding-assistant open-weights apache-2 hybrid-ai benchmarks