gstack - Garry Tans Framework, das Claude Code in ein virtuelles Engineering-Team verwandelt

Wenn der CEO von Y Combinator sein persönliches Claude Code Setup veröffentlicht und es innerhalb eines Monats 50.000 GitHub-Stars erreicht, schaut man genauer hin. Nicht weil Prominenz automatisch Qualität garantiert - sondern weil Garry Tan einer der seltenen VC-Gründer ist, die täglich noch Produktionscode schreiben, und das Framework, das er gebaut hat, eine spezifische, durchdachte Sicht darauf widerspiegelt, wie AI-gestützte Entwicklung funktionieren sollte.

gstack ist kein neues AI-Modell. Es ist kein SaaS-Produkt. Es ist eine Sammlung von 23 Spezialistenrollen und 8 Power-Tools, die alle als Slash Commands in Claude Code laufen. Die Kernidee: Hör auf, deinen AI-Assistenten als einzelnen Generalisten zu behandeln, und fang an, ihn als Team von Spezialisten zu nutzen - ein CEO, der dein Produktdenken hinterfragt, ein Staff Engineer, der die Architektur reviewt, ein QA Lead, der im echten Browser testet, ein Release Engineer, der deinen PR schippt.

Ich nutze gstack seit ein paar Wochen neben meinem eigenen Agent-Skills Setup. Hier erfährst du, was es tatsächlich macht, wie es unter der Haube funktioniert und wo es im wachsenden Ökosystem der Claude Code Frameworks einzuordnen ist.

Wer ist Garry Tan (und warum ist das relevant)

Kurzer Kontext, denn der Hintergrund des Autors erklärt die Philosophie des Frameworks:

President & CEO von Y Combinator seit Januar 2023
Stanford CS-Absolvent, früher Engineer bei Palantir (ihm wird das ursprüngliche Logo und Design System des Unternehmens zugeschrieben)
Mitgründer von Posterous (2012 von Twitter übernommen)
Gründer von Initialized Capital, einer Venture-Firma hinter Coinbase, Instacart und anderen
Behauptet, 600.000+ Zeilen Produktionscode in 60 Tagen mit gstack geschrieben zu haben - nebenberuflich, während er YC leitet

Der letzte Punkt ist entscheidend. Tan baut gstack nicht als Nebenprojekt eines Produktteams. Er baut es, weil er ein Gründer-Ingenieur ist, der täglich codet und frustriert war von der Kluft zwischen “AI kann Code schreiben” und “AI kann mir helfen, klar darüber nachzudenken, was ich bauen sollte.”

Das Problem - Vibe Coding ohne Leitplanken

Wenn du Claude Code für ein ernstes Projekt genutzt hast, kennst du diese Wand: Die AI ist schnell, leistungsfähig und völlig ungesteuert. Ohne Struktur verfällst du in das, was Tan “Vibe Coding” nennt - die AI Code generieren lassen ohne disziplinierte Planung, Review oder Tests.

Die Symptome sind bekannt:

Du fängst an zu bauen, bevor du durchdacht hast, was du baust
Niemand reviewt die Architektur, bevor die Implementierung beginnt
Testen passiert im Nachhinein (wenn überhaupt)
Security Auditing ist “mach ich später”
Shipping ist ein manueller, fehleranfälliger Prozess

Ein echtes Engineering-Team löst das mit Rollen. Der Product Manager hinterfragt den Scope. Der Architekt reviewt das Design. Der QA-Engineer testet vor dem Shipping. Der Security-Engineer auditiert vor dem Deploy. Solo-Entwickler mit AI-Assistenten bekommen nichts davon - es sei denn, sie erzwingen die Struktur selbst.

Genau das macht gstack. Es erzwingt Struktur, indem es Claude Code 23 verschiedene Spezialistenpersönlichkeiten gibt, jede mit eigener Methodik, eigenen Einschränkungen und eigenem Output-Format.

Wie gstack funktioniert

Das Kernmodell - Strukturierte Rollenspezialisierung

Das ist das Wichtigste, was du verstehen musst: gstack ist keine Multi-Agent-Orchestrierung. Es ist eine einzelne Claude Code Instanz, die auf deinen Befehl zwischen Spezialistenrollen wechselt. Du entscheidest, wann du von “Product Review” zu “Engineering Review” zu “Implementierung” zu “QA” wechselst. Die AI delegiert nicht autonom zwischen Rollen.

Das ist eine bewusste Entscheidung. Wie Tan es ausdrückt: “Planung ist nicht Review. Review ist nicht Shipping… Ich will explizite Gänge.”

Der Workflow folgt einem Sprint-Zyklus: Denken - Planen - Bauen - Reviewen - Testen - Shippen - Reflektieren. Jede Phase ist mit spezifischen Slash Commands verknüpft.

Architektur unter der Haube

gstack ist in TypeScript (80%) und Go (18%) geschrieben, läuft auf Bun mit einem kompilierten ~58MB-Binary. Drei technische Entscheidungen stechen hervor:

1. SKILL.md Dateien

Jede Spezialistenrolle ist in einer SKILL.md-Datei definiert - Anthropics portabler Markdown-Standard zur Codierung von Agent-Verhalten. Diese Dateien enthalten strukturierte Prompts mit YAML-Frontmatter. Sie sind Klartext, versionierbar und portabel über Claude Code, OpenAI Codex CLI, GitHub Copilot, Cursor und andere Hosts hinweg.

2. Persistenter Browser-Daemon

Statt bei jedem QA- oder Design-Review-Befehl einen Browser kalt zu starten, betreibt gstack eine langlebige Chromium-Instanz über Playwright. Der erste Befehl braucht ~3 Sekunden zum Starten; nachfolgende Befehle antworten in ~100-200ms. Der Daemon fährt nach 30 Minuten Inaktivität automatisch herunter.

Der Zustand wird in .gstack/browse.json verfolgt (PID, Port, Bearer Token). Zufällige Ports zwischen 10.000-60.000 verhindern Konflikte über mehrere Workspaces hinweg.

3. Accessibility-First Referenzsystem

Wenn gstacks Browser-Daemon eine Seite aufnimmt, nutzt er keine CSS-Selektoren. Er verwendet Playwrights Accessibility Tree, um sequenzielle Refs (@e1, @e2, @e3) zu generieren, die über getByRole()-Queries aufgelöst werden. Das funktioniert durch Shadow DOM, respektiert Content Security Policy und ist robuster als selectorbasierte Ansätze.

Installation - 30 Sekunden

Voraussetzungen: Claude Code, Git, Bun v1.0+

# Clone and setup
git clone --single-branch --depth 1 \
  https://github.com/garrytan/gstack.git \
  ~/.claude/skills/gstack

cd ~/.claude/skills/gstack && ./setup

Das war’s. Alle Slash Commands sind sofort in deiner nächsten Claude Code Session verfügbar.

Für Teams (geteilte Repos mit Auto-Updates):

# Enable team mode
cd ~/.claude/skills/gstack && ./setup --team

# Initialize in your project
cd <your-repo>
~/.claude/skills/gstack/bin/gstack-team-init required

# Commit the configuration
git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"

Deinstallation:

~/.claude/skills/gstack/bin/gstack-uninstall

Das Setup-Skript erkennt automatisch deinen Host (Claude Code, Codex, OpenCode, Cursor, Factory Droid, Slate, Kiro). Du kannst auch einen bestimmten Host mit ./setup --host <name> angeben.

Die 23 Spezialistenrollen

Hier sind alle Slash Commands, die gstack hinzufügt, geordnet nach Entwicklungsphase.

Planung & Strategie

Befehl	Rolle	Was er macht
`/office-hours`	Produkt-Interrogator	Stellt 6 zwingende Fragen, bevor du eine Zeile Code schreibst. Wechselt zwischen Startup-Modus und Builder-Modus
`/plan-ceo-review`	Founder/CEO	Denkt aus Nutzerperspektive neu. Vier Scope-Modi: expand, selective, hold, reduce
`/plan-eng-review`	Engineering Manager	Architektur-Lock-in mit Diagrammen und Testplänen. Das einzige verpflichtende Gate im Workflow
`/plan-design-review`	Senior Designer	7-Pass-Evaluation, bewertet 0-10, schlägt konkrete Fixes vor
`/plan-devex-review`	DevEx-Spezialist	Developer-Experience-Optimierung - API-Ergonomie, Fehlermeldungen, Onboarding-Friction
`/autoplan`	Alle Planungsrollen	Führt CEO-, Design- und Eng-Review sequenziell in einem Befehl aus

Design

Befehl	Rolle	Was er macht
`/design-consultation`	Design Director	Erstellt ein komplettes Design System von Grund auf: Wettbewerbsrecherche, Tokens, Komponenteninventar, schreibt DESIGN.md
`/design-shotgun`	Visual Designer	Generiert 3-6 Mockup-Varianten mit GPT Image, erstellt ein Vergleichsboard
`/design-review`	Design-Auditor	80-Punkte-Visual-Audit mit automatischen CSS-Fixes und Vorher/Nachher-Screenshots
`/design-html`	Frontend-Engineer	Konvertiert Mockups in produktionsreifes HTML mit Framework-Erkennung

Code-Qualität

Befehl	Rolle	Was er macht
`/review`	Staff Engineer	Findet Produktionsfehler, die CI bestehen. Behebt offensichtliche Issues automatisch, flaggt nicht-offensichtliche
`/investigate`	Debugger	Root-Cause-Debugging mit einer harten Regel: keine Fixes ohne vorherige Untersuchung. Stoppt nach 3 fehlgeschlagenen Versuchen
`/cso`	Chief Security Officer	OWASP Top 10 Scan plus STRIDE Threat Modeling

Testing

Befehl	Rolle	Was er macht
`/qa`	QA Lead	Echtes Browser-Testing über den Playwright-Daemon, Bug-Fixes, Regressionstestgenerierung
`/qa-only`	QA Reporter	Gleiche Methodik wie `/qa`, aber nur Bericht - keine Codeänderungen
`/benchmark`	Performance Engineer	Core Web Vitals, Seitenladezeiten, Ressourcengrößen, Vorher/Nachher-Vergleich

Deployment

Befehl	Rolle	Was er macht
`/ship`	Release Engineer	Synchronisiert Branch, führt Tests aus, prüft Coverage, pusht, öffnet PR
`/land-and-deploy`	Deploy Engineer	Mergt PR, wartet auf CI, verifiziert Produktions-Health
`/canary`	Monitoring	Post-Deploy-Überwachung auf Konsolenfehler und Regressionen
`/document-release`	Doc Engineer	Aktualisiert automatisch alle Projektdokumentation passend zu den geschippten Änderungen

Utilities

Befehl	Was er macht
`/browse`	Echter Chromium Browser mit ~100ms Antwortlatenz
`/setup-browser-cookies`	Importiert Cookies aus Chrome, Arc, Brave oder Edge über macOS Keychain
`/codex`	OpenAI Codex CLI Zweitmeinung (Review-, Adversarial- oder Konsultationsmodus)
`/careful`	Sicherheitsleitplanken für destruktive Befehle
`/freeze` / `/unfreeze`	Beschränkt Dateibearbeitungen auf bestimmte Verzeichnisse
`/learn`	Speichert gelernte Muster sitzungsübergreifend
`/retro`	Wöchentliche Engineering-Retrospektive

Ein typischer gstack-Workflow

So sieht eine echte Feature-Entwicklungssession aus:

1. /office-hours        → "Was bauen wir und warum?"
2. /plan-ceo-review     → "Ergibt dieser Scope aus Nutzerperspektive Sinn?"
3. /plan-eng-review     → "Ist die Architektur solide?" (verpflichtendes Gate)
4. [implementieren]     → Standard Claude Code Coding
5. /review              → Staff Engineer findet Produktionsfehler
6. /cso                 → Security Audit
7. /qa                  → Echtes Browser-Testing
8. /ship                → PR geöffnet, Tests bestanden
9. /land-and-deploy     → Gemergt und deployed
10. /canary             → Post-Deploy-Monitoring

Du musst nicht jeden Schritt jedes Mal durchlaufen. Aber die expliziten Phasen verhindern die “Ich vibe-code das mal eben schnell”-Falle, die dazu führt, dass ungetesteter, unreviewter Code geschippt wird.

Sicherheitsmodell

gstacks Browser-Daemon läuft mit vernünftigen Sicherheitsstandards:

Localhost-only Binding - kein Netzwerkzugriff von außen
Bearer Token Auth pro Session, gespeichert in Dateien mit Modus 0o600
Cookie-Import aus Chrome/Arc/Brave/Edge nutzt macOS Keychain (read-only, prozessinterne Entschlüsselung, niemals im Klartext gespeichert)
Bun.spawn() mit expliziten Argument-Arrays verhindert Shell-Injection

Drei zirkuläre Log-Buffer (je 50.000 Einträge) erfassen Konsolenmeldungen, Netzwerkanfragen und Dialoge. Asynchroner Flush jede Sekunde nach .gstack/*.log.

Wie gstack im Vergleich zu anderen Frameworks abschneidet

gstack existiert neben zwei anderen großen Claude Code Enhancement-Frameworks. Sie lösen unterschiedliche Probleme:

Dimension	gstack (~50K Stars)	Superpowers (~94K Stars)	GSD (~35K Stars)
Beschränkt	Entscheidungsperspektive	Entwicklungsprozess	Ausführungsumgebung
Philosophie	”Welchen Hut aufsetzen"	"Welche Schritte befolgen"	"Frischer Kontext pro Aufgabe”
Stärke	Erzwingt Klarheit vor dem Coden	Reduziert Regressions-Bugs via TDD	Qualität bei 50+ Datei-Projekten
Schwäche	Kein expliziter Build-Phase-Skill	Langsamere Builds (Test-first-Overhead)	Komplexeres Setup
Ideal für	Gründer-Ingenieure mit vielen Hüten	Solo-Devs, die Prozessdisziplin brauchen	Komplexe Projekte, die Context Windows sprengen

Die zentrale Erkenntnis: Diese Frameworks überlappen sich kaum. gstack steuert die Perspektive (in welcher Rolle bist du?), Superpowers steuert den Prozess (welche Schritte befolgst du?) und GSD steuert die Umgebung (wie managst du den Kontext?). Du kannst sie zusammen nutzen.

Mein eigenes Setup kombiniert gstacks Planungsphasen mit Agent-Skills für den Build/Test/Review-Zyklus. Die beiden ergänzen sich gut - gstack stellt die harten Produktfragen, bevor das Coden beginnt, Agent-Skills erzwingt Engineering-Disziplin während der Implementierung.

Was mir gefällt

Die Rollenzerlegung ist die eigentliche Erkenntnis. Die Idee, dass ein AI-Coding-Assistent zwischen verschiedenen Spezialistenperspektiven wechseln sollte - nicht nur ein generischer “hilfreicher Coder” sein - ist das Muster, das es sich lohnt zu übernehmen, unabhängig davon, ob du speziell gstack nutzt. Es zwingt dich, darüber nachzudenken, in welcher Phase du bist, bevor du anfängst zu tippen.

/office-hours ist wirklich nützlich. Eine AI, die dein Produktdenken hinterfragt, bevor du Code schreibst, spart mehr Zeit als jedes Code-Review-Tool. Die sechs zwingenden Fragen decken Annahmen auf, von denen du nicht wusstest, dass du sie machst.

Der Browser-Daemon ist gut engineered. Persistentes Chromium mit Accessibility-Tree-Refs ist eine bessere Architektur als bei jedem Befehl einen Browser kalt zu starten. Die ~100ms Latenz lässt iterative QA-Sessions reaktionsschnell anfühlen.

Portabilität zählt. Weil alles auf SKILL.md-Dateien aufgebaut ist, funktionieren die Rollen über Claude Code, Codex, Cursor und andere Hosts hinweg. Du bist nicht an ein Tool gebunden.

Worauf ich achten würde

Es ist strukturiertes Rollenspiel, keine echte Multi-Agent-Orchestrierung. Wenn du erwartest, dass Agents autonom Arbeit aneinander delegieren - das ist es nicht. Du bist der Orchestrator. Jeder Slash Command aktiviert eine einzelne Spezialistenpersönlichkeit in einer Claude Code Session.

Die 600K-LOC-Behauptung braucht Kontext. Tans Produktivitätszahlen stammen aus dem Betrieb von gstack zusammen mit Conductor - einer separaten Mac-App, die mehrere Claude Code Instanzen in isolierten Git-Worktrees ausführt. gstack allein gibt dir keinen Parallelismus.

Lange Agent-Loops können passieren. Ein Entwickler berichtete von einem 70-Minuten-Loop, in dem /qa immer wieder Staging-URLs in Produktionsdateien einfügte. Wie bei jedem agentischen Workflow musst du in der Loop bleiben und eingreifen, wenn Dinge schiefgehen.

Einige Befehle überlappen sich mit bestehenden Setups. Wenn du bereits Agent-Skills oder Superpowers nutzt, wirst du feststellen, dass /review und /ship Ähnliches tun wie Skills, die du bereits hast. Wähle eines oder sei bewusst darin, welches Framework welche Phase übernimmt.

Die Meta-Lektion

Das Interessanteste an gstack ist nicht der Code. Es ist die These: Der Engpass bei AI-gestützter Entwicklung ist nicht Intelligenz, sondern Struktur. Claude Code ist bereits schlau genug, um guten Code zu schreiben, Bugs zu finden und Verbesserungen vorzuschlagen. Was fehlt - was allen AI-Coding-Assistenten fehlt - ist ein Framework, das entscheidet, wann man worüber nachdenken sollte.

gstacks Antwort ist Rollenzerlegung. Bevor du baust, denke wie ein CEO. Bevor du shippst, denke wie ein QA Lead. Bevor du deployst, denke wie ein Security Officer. Die AI muss nicht schlauer werden. Sie muss den richtigen Hut zur richtigen Zeit tragen.

Ob du gstack übernimmst, dein eigenes Rollensystem baust oder einfach das Prinzip verinnerlichst - das Muster ist es wert, gelernt zu werden. Die Entwickler, die 2026 den besten AI-gestützten Code shippen, sind nicht diejenigen mit den leistungsfähigsten Modellen. Es sind diejenigen mit den diszipliniertesten Workflows.

Ressourcen

GitHub: garrytan/gstack (MIT license, ~50K Stars)
Offizielle Website: gstacks.org
Architektur-Deep-Dive: ARCHITECTURE.md
TechCrunch-Berichterstattung: Why Garry Tan’s Claude Code setup has gotten so much love, and hate
Agents Codex Analyse: Garry Tan’s gstack and the rise of AI agent teams
Vergleich mit anderen Frameworks: Superpowers, GSD, and gstack - what each framework constrains