gstack - Garry Tans Framework, das Claude Code in ein virtuelles Engineering-Team verwandelt
Wie das Open-Source-Toolkit des Y-Combinator-CEOs AI-Coding um 23 Spezialistenrollen strukturiert - von Product Review bis Security Audit - und warum das Rollenzerlegungsmuster wichtiger ist als das Tool selbst.
Auf dieser Seite
Wenn der CEO von Y Combinator sein persönliches Claude Code Setup veröffentlicht und es innerhalb eines Monats 50.000 GitHub-Stars erreicht, schaut man genauer hin. Nicht weil Prominenz automatisch Qualität garantiert - sondern weil Garry Tan einer der seltenen VC-Gründer ist, die täglich noch Produktionscode schreiben, und das Framework, das er gebaut hat, eine spezifische, durchdachte Sicht darauf widerspiegelt, wie AI-gestützte Entwicklung funktionieren sollte.
gstack ist kein neues AI-Modell. Es ist kein SaaS-Produkt. Es ist eine Sammlung von 23 Spezialistenrollen und 8 Power-Tools, die alle als Slash Commands in Claude Code laufen. Die Kernidee: Hör auf, deinen AI-Assistenten als einzelnen Generalisten zu behandeln, und fang an, ihn als Team von Spezialisten zu nutzen - ein CEO, der dein Produktdenken hinterfragt, ein Staff Engineer, der die Architektur reviewt, ein QA Lead, der im echten Browser testet, ein Release Engineer, der deinen PR schippt.
Ich nutze gstack seit ein paar Wochen neben meinem eigenen Agent-Skills Setup. Hier erfährst du, was es tatsächlich macht, wie es unter der Haube funktioniert und wo es im wachsenden Ökosystem der Claude Code Frameworks einzuordnen ist.
Wer ist Garry Tan (und warum ist das relevant)
Kurzer Kontext, denn der Hintergrund des Autors erklärt die Philosophie des Frameworks:
- President & CEO von Y Combinator seit Januar 2023
- Stanford CS-Absolvent, früher Engineer bei Palantir (ihm wird das ursprüngliche Logo und Design System des Unternehmens zugeschrieben)
- Mitgründer von Posterous (2012 von Twitter übernommen)
- Gründer von Initialized Capital, einer Venture-Firma hinter Coinbase, Instacart und anderen
- Behauptet, 600.000+ Zeilen Produktionscode in 60 Tagen mit gstack geschrieben zu haben - nebenberuflich, während er YC leitet
Der letzte Punkt ist entscheidend. Tan baut gstack nicht als Nebenprojekt eines Produktteams. Er baut es, weil er ein Gründer-Ingenieur ist, der täglich codet und frustriert war von der Kluft zwischen “AI kann Code schreiben” und “AI kann mir helfen, klar darüber nachzudenken, was ich bauen sollte.”
Das Problem - Vibe Coding ohne Leitplanken
Wenn du Claude Code für ein ernstes Projekt genutzt hast, kennst du diese Wand: Die AI ist schnell, leistungsfähig und völlig ungesteuert. Ohne Struktur verfällst du in das, was Tan “Vibe Coding” nennt - die AI Code generieren lassen ohne disziplinierte Planung, Review oder Tests.
Die Symptome sind bekannt:
- Du fängst an zu bauen, bevor du durchdacht hast, was du baust
- Niemand reviewt die Architektur, bevor die Implementierung beginnt
- Testen passiert im Nachhinein (wenn überhaupt)
- Security Auditing ist “mach ich später”
- Shipping ist ein manueller, fehleranfälliger Prozess
Ein echtes Engineering-Team löst das mit Rollen. Der Product Manager hinterfragt den Scope. Der Architekt reviewt das Design. Der QA-Engineer testet vor dem Shipping. Der Security-Engineer auditiert vor dem Deploy. Solo-Entwickler mit AI-Assistenten bekommen nichts davon - es sei denn, sie erzwingen die Struktur selbst.
Genau das macht gstack. Es erzwingt Struktur, indem es Claude Code 23 verschiedene Spezialistenpersönlichkeiten gibt, jede mit eigener Methodik, eigenen Einschränkungen und eigenem Output-Format.
Wie gstack funktioniert
Das Kernmodell - Strukturierte Rollenspezialisierung
Das ist das Wichtigste, was du verstehen musst: gstack ist keine Multi-Agent-Orchestrierung. Es ist eine einzelne Claude Code Instanz, die auf deinen Befehl zwischen Spezialistenrollen wechselt. Du entscheidest, wann du von “Product Review” zu “Engineering Review” zu “Implementierung” zu “QA” wechselst. Die AI delegiert nicht autonom zwischen Rollen.
Das ist eine bewusste Entscheidung. Wie Tan es ausdrückt: “Planung ist nicht Review. Review ist nicht Shipping… Ich will explizite Gänge.”
Der Workflow folgt einem Sprint-Zyklus: Denken - Planen - Bauen - Reviewen - Testen - Shippen - Reflektieren. Jede Phase ist mit spezifischen Slash Commands verknüpft.
Architektur unter der Haube
gstack ist in TypeScript (80%) und Go (18%) geschrieben, läuft auf Bun mit einem kompilierten ~58MB-Binary. Drei technische Entscheidungen stechen hervor:
1. SKILL.md Dateien
Jede Spezialistenrolle ist in einer SKILL.md-Datei definiert - Anthropics portabler Markdown-Standard zur Codierung von Agent-Verhalten. Diese Dateien enthalten strukturierte Prompts mit YAML-Frontmatter. Sie sind Klartext, versionierbar und portabel über Claude Code, OpenAI Codex CLI, GitHub Copilot, Cursor und andere Hosts hinweg.
2. Persistenter Browser-Daemon
Statt bei jedem QA- oder Design-Review-Befehl einen Browser kalt zu starten, betreibt gstack eine langlebige Chromium-Instanz über Playwright. Der erste Befehl braucht ~3 Sekunden zum Starten; nachfolgende Befehle antworten in ~100-200ms. Der Daemon fährt nach 30 Minuten Inaktivität automatisch herunter.
Der Zustand wird in .gstack/browse.json verfolgt (PID, Port, Bearer Token). Zufällige Ports zwischen 10.000-60.000 verhindern Konflikte über mehrere Workspaces hinweg.
3. Accessibility-First Referenzsystem
Wenn gstacks Browser-Daemon eine Seite aufnimmt, nutzt er keine CSS-Selektoren. Er verwendet Playwrights Accessibility Tree, um sequenzielle Refs (@e1, @e2, @e3) zu generieren, die über getByRole()-Queries aufgelöst werden. Das funktioniert durch Shadow DOM, respektiert Content Security Policy und ist robuster als selectorbasierte Ansätze.
Installation - 30 Sekunden
Voraussetzungen: Claude Code, Git, Bun v1.0+
# Clone and setup
git clone --single-branch --depth 1 \
https://github.com/garrytan/gstack.git \
~/.claude/skills/gstack
cd ~/.claude/skills/gstack && ./setup
Das war’s. Alle Slash Commands sind sofort in deiner nächsten Claude Code Session verfügbar.
Für Teams (geteilte Repos mit Auto-Updates):
# Enable team mode
cd ~/.claude/skills/gstack && ./setup --team
# Initialize in your project
cd <your-repo>
~/.claude/skills/gstack/bin/gstack-team-init required
# Commit the configuration
git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"
Deinstallation:
~/.claude/skills/gstack/bin/gstack-uninstall
Das Setup-Skript erkennt automatisch deinen Host (Claude Code, Codex, OpenCode, Cursor, Factory Droid, Slate, Kiro). Du kannst auch einen bestimmten Host mit ./setup --host <name> angeben.
Die 23 Spezialistenrollen
Hier sind alle Slash Commands, die gstack hinzufügt, geordnet nach Entwicklungsphase.
Planung & Strategie
| Befehl | Rolle | Was er macht |
|---|---|---|
/office-hours | Produkt-Interrogator | Stellt 6 zwingende Fragen, bevor du eine Zeile Code schreibst. Wechselt zwischen Startup-Modus und Builder-Modus |
/plan-ceo-review | Founder/CEO | Denkt aus Nutzerperspektive neu. Vier Scope-Modi: expand, selective, hold, reduce |
/plan-eng-review | Engineering Manager | Architektur-Lock-in mit Diagrammen und Testplänen. Das einzige verpflichtende Gate im Workflow |
/plan-design-review | Senior Designer | 7-Pass-Evaluation, bewertet 0-10, schlägt konkrete Fixes vor |
/plan-devex-review | DevEx-Spezialist | Developer-Experience-Optimierung - API-Ergonomie, Fehlermeldungen, Onboarding-Friction |
/autoplan | Alle Planungsrollen | Führt CEO-, Design- und Eng-Review sequenziell in einem Befehl aus |
Design
| Befehl | Rolle | Was er macht |
|---|---|---|
/design-consultation | Design Director | Erstellt ein komplettes Design System von Grund auf: Wettbewerbsrecherche, Tokens, Komponenteninventar, schreibt DESIGN.md |
/design-shotgun | Visual Designer | Generiert 3-6 Mockup-Varianten mit GPT Image, erstellt ein Vergleichsboard |
/design-review | Design-Auditor | 80-Punkte-Visual-Audit mit automatischen CSS-Fixes und Vorher/Nachher-Screenshots |
/design-html | Frontend-Engineer | Konvertiert Mockups in produktionsreifes HTML mit Framework-Erkennung |
Code-Qualität
| Befehl | Rolle | Was er macht |
|---|---|---|
/review | Staff Engineer | Findet Produktionsfehler, die CI bestehen. Behebt offensichtliche Issues automatisch, flaggt nicht-offensichtliche |
/investigate | Debugger | Root-Cause-Debugging mit einer harten Regel: keine Fixes ohne vorherige Untersuchung. Stoppt nach 3 fehlgeschlagenen Versuchen |
/cso | Chief Security Officer | OWASP Top 10 Scan plus STRIDE Threat Modeling |
Testing
| Befehl | Rolle | Was er macht |
|---|---|---|
/qa | QA Lead | Echtes Browser-Testing über den Playwright-Daemon, Bug-Fixes, Regressionstestgenerierung |
/qa-only | QA Reporter | Gleiche Methodik wie /qa, aber nur Bericht - keine Codeänderungen |
/benchmark | Performance Engineer | Core Web Vitals, Seitenladezeiten, Ressourcengrößen, Vorher/Nachher-Vergleich |
Deployment
| Befehl | Rolle | Was er macht |
|---|---|---|
/ship | Release Engineer | Synchronisiert Branch, führt Tests aus, prüft Coverage, pusht, öffnet PR |
/land-and-deploy | Deploy Engineer | Mergt PR, wartet auf CI, verifiziert Produktions-Health |
/canary | Monitoring | Post-Deploy-Überwachung auf Konsolenfehler und Regressionen |
/document-release | Doc Engineer | Aktualisiert automatisch alle Projektdokumentation passend zu den geschippten Änderungen |
Utilities
| Befehl | Was er macht |
|---|---|
/browse | Echter Chromium Browser mit ~100ms Antwortlatenz |
/setup-browser-cookies | Importiert Cookies aus Chrome, Arc, Brave oder Edge über macOS Keychain |
/codex | OpenAI Codex CLI Zweitmeinung (Review-, Adversarial- oder Konsultationsmodus) |
/careful | Sicherheitsleitplanken für destruktive Befehle |
/freeze / /unfreeze | Beschränkt Dateibearbeitungen auf bestimmte Verzeichnisse |
/learn | Speichert gelernte Muster sitzungsübergreifend |
/retro | Wöchentliche Engineering-Retrospektive |
Ein typischer gstack-Workflow
So sieht eine echte Feature-Entwicklungssession aus:
1. /office-hours → "Was bauen wir und warum?"
2. /plan-ceo-review → "Ergibt dieser Scope aus Nutzerperspektive Sinn?"
3. /plan-eng-review → "Ist die Architektur solide?" (verpflichtendes Gate)
4. [implementieren] → Standard Claude Code Coding
5. /review → Staff Engineer findet Produktionsfehler
6. /cso → Security Audit
7. /qa → Echtes Browser-Testing
8. /ship → PR geöffnet, Tests bestanden
9. /land-and-deploy → Gemergt und deployed
10. /canary → Post-Deploy-Monitoring
Du musst nicht jeden Schritt jedes Mal durchlaufen. Aber die expliziten Phasen verhindern die “Ich vibe-code das mal eben schnell”-Falle, die dazu führt, dass ungetesteter, unreviewter Code geschippt wird.
Sicherheitsmodell
gstacks Browser-Daemon läuft mit vernünftigen Sicherheitsstandards:
- Localhost-only Binding - kein Netzwerkzugriff von außen
- Bearer Token Auth pro Session, gespeichert in Dateien mit Modus
0o600 - Cookie-Import aus Chrome/Arc/Brave/Edge nutzt macOS Keychain (read-only, prozessinterne Entschlüsselung, niemals im Klartext gespeichert)
Bun.spawn()mit expliziten Argument-Arrays verhindert Shell-Injection
Drei zirkuläre Log-Buffer (je 50.000 Einträge) erfassen Konsolenmeldungen, Netzwerkanfragen und Dialoge. Asynchroner Flush jede Sekunde nach .gstack/*.log.
Wie gstack im Vergleich zu anderen Frameworks abschneidet
gstack existiert neben zwei anderen großen Claude Code Enhancement-Frameworks. Sie lösen unterschiedliche Probleme:
| Dimension | gstack (~50K Stars) | Superpowers (~94K Stars) | GSD (~35K Stars) |
|---|---|---|---|
| Beschränkt | Entscheidungsperspektive | Entwicklungsprozess | Ausführungsumgebung |
| Philosophie | ”Welchen Hut aufsetzen" | "Welche Schritte befolgen" | "Frischer Kontext pro Aufgabe” |
| Stärke | Erzwingt Klarheit vor dem Coden | Reduziert Regressions-Bugs via TDD | Qualität bei 50+ Datei-Projekten |
| Schwäche | Kein expliziter Build-Phase-Skill | Langsamere Builds (Test-first-Overhead) | Komplexeres Setup |
| Ideal für | Gründer-Ingenieure mit vielen Hüten | Solo-Devs, die Prozessdisziplin brauchen | Komplexe Projekte, die Context Windows sprengen |
Die zentrale Erkenntnis: Diese Frameworks überlappen sich kaum. gstack steuert die Perspektive (in welcher Rolle bist du?), Superpowers steuert den Prozess (welche Schritte befolgst du?) und GSD steuert die Umgebung (wie managst du den Kontext?). Du kannst sie zusammen nutzen.
Mein eigenes Setup kombiniert gstacks Planungsphasen mit Agent-Skills für den Build/Test/Review-Zyklus. Die beiden ergänzen sich gut - gstack stellt die harten Produktfragen, bevor das Coden beginnt, Agent-Skills erzwingt Engineering-Disziplin während der Implementierung.
Was mir gefällt
Die Rollenzerlegung ist die eigentliche Erkenntnis. Die Idee, dass ein AI-Coding-Assistent zwischen verschiedenen Spezialistenperspektiven wechseln sollte - nicht nur ein generischer “hilfreicher Coder” sein - ist das Muster, das es sich lohnt zu übernehmen, unabhängig davon, ob du speziell gstack nutzt. Es zwingt dich, darüber nachzudenken, in welcher Phase du bist, bevor du anfängst zu tippen.
/office-hours ist wirklich nützlich. Eine AI, die dein Produktdenken hinterfragt, bevor du Code schreibst, spart mehr Zeit als jedes Code-Review-Tool. Die sechs zwingenden Fragen decken Annahmen auf, von denen du nicht wusstest, dass du sie machst.
Der Browser-Daemon ist gut engineered. Persistentes Chromium mit Accessibility-Tree-Refs ist eine bessere Architektur als bei jedem Befehl einen Browser kalt zu starten. Die ~100ms Latenz lässt iterative QA-Sessions reaktionsschnell anfühlen.
Portabilität zählt. Weil alles auf SKILL.md-Dateien aufgebaut ist, funktionieren die Rollen über Claude Code, Codex, Cursor und andere Hosts hinweg. Du bist nicht an ein Tool gebunden.
Worauf ich achten würde
Es ist strukturiertes Rollenspiel, keine echte Multi-Agent-Orchestrierung. Wenn du erwartest, dass Agents autonom Arbeit aneinander delegieren - das ist es nicht. Du bist der Orchestrator. Jeder Slash Command aktiviert eine einzelne Spezialistenpersönlichkeit in einer Claude Code Session.
Die 600K-LOC-Behauptung braucht Kontext. Tans Produktivitätszahlen stammen aus dem Betrieb von gstack zusammen mit Conductor - einer separaten Mac-App, die mehrere Claude Code Instanzen in isolierten Git-Worktrees ausführt. gstack allein gibt dir keinen Parallelismus.
Lange Agent-Loops können passieren. Ein Entwickler berichtete von einem 70-Minuten-Loop, in dem /qa immer wieder Staging-URLs in Produktionsdateien einfügte. Wie bei jedem agentischen Workflow musst du in der Loop bleiben und eingreifen, wenn Dinge schiefgehen.
Einige Befehle überlappen sich mit bestehenden Setups. Wenn du bereits Agent-Skills oder Superpowers nutzt, wirst du feststellen, dass /review und /ship Ähnliches tun wie Skills, die du bereits hast. Wähle eines oder sei bewusst darin, welches Framework welche Phase übernimmt.
Die Meta-Lektion
Das Interessanteste an gstack ist nicht der Code. Es ist die These: Der Engpass bei AI-gestützter Entwicklung ist nicht Intelligenz, sondern Struktur. Claude Code ist bereits schlau genug, um guten Code zu schreiben, Bugs zu finden und Verbesserungen vorzuschlagen. Was fehlt - was allen AI-Coding-Assistenten fehlt - ist ein Framework, das entscheidet, wann man worüber nachdenken sollte.
gstacks Antwort ist Rollenzerlegung. Bevor du baust, denke wie ein CEO. Bevor du shippst, denke wie ein QA Lead. Bevor du deployst, denke wie ein Security Officer. Die AI muss nicht schlauer werden. Sie muss den richtigen Hut zur richtigen Zeit tragen.
Ob du gstack übernimmst, dein eigenes Rollensystem baust oder einfach das Prinzip verinnerlichst - das Muster ist es wert, gelernt zu werden. Die Entwickler, die 2026 den besten AI-gestützten Code shippen, sind nicht diejenigen mit den leistungsfähigsten Modellen. Es sind diejenigen mit den diszipliniertesten Workflows.
Ressourcen
- GitHub: garrytan/gstack (MIT license, ~50K Stars)
- Offizielle Website: gstacks.org
- Architektur-Deep-Dive: ARCHITECTURE.md
- TechCrunch-Berichterstattung: Why Garry Tan’s Claude Code setup has gotten so much love, and hate
- Agents Codex Analyse: Garry Tan’s gstack and the rise of AI agent teams
- Vergleich mit anderen Frameworks: Superpowers, GSD, and gstack - what each framework constrains
Verwandte Artikel
Die 15 MCPs & Skills, die mein Claude Code Setup superchargen
Die wichtigsten MCP-Server und Claude Code Skills, die ich täglich nutze, um die Produktivität mit agentic AI zu steigern - was sie tun, warum sie wichtig sind und Copy-Paste-Installationsanleitungen.
Agentic Development Patterns - Software bauen mit KI-Agenten
Praxiserprobte Muster und Workflows für agentenbasierte Softwareentwicklung mit Claude Code, Cursor und lokalen LLMs - von parallelen Workstreams bis zur Overnight Agent Factory.
Das Skills Framework - Von Vibe Coding zu produktionsreifem Agentic Engineering
Warum Anthropics Agent Skills und Addy Osmanis Skills-Framework die fehlende Disziplinschicht fur ernsthaftes KI-gestutztes Software Engineering sind - und wie sie sich mit GitHubs Spec Kit vergleichen.