Skip to content
Zurück zu Technik
GenAI · 12 Min. Lesezeit

gstack - Garry Tans Framework, das Claude Code in ein virtuelles Engineering-Team verwandelt

Wie das Open-Source-Toolkit des Y-Combinator-CEOs AI-Coding um 23 Spezialistenrollen strukturiert - von Product Review bis Security Audit - und warum das Rollenzerlegungsmuster wichtiger ist als das Tool selbst.

Teilen
Auf dieser Seite

Wenn der CEO von Y Combinator sein persönliches Claude Code Setup veröffentlicht und es innerhalb eines Monats 50.000 GitHub-Stars erreicht, schaut man genauer hin. Nicht weil Prominenz automatisch Qualität garantiert - sondern weil Garry Tan einer der seltenen VC-Gründer ist, die täglich noch Produktionscode schreiben, und das Framework, das er gebaut hat, eine spezifische, durchdachte Sicht darauf widerspiegelt, wie AI-gestützte Entwicklung funktionieren sollte.

gstack ist kein neues AI-Modell. Es ist kein SaaS-Produkt. Es ist eine Sammlung von 23 Spezialistenrollen und 8 Power-Tools, die alle als Slash Commands in Claude Code laufen. Die Kernidee: Hör auf, deinen AI-Assistenten als einzelnen Generalisten zu behandeln, und fang an, ihn als Team von Spezialisten zu nutzen - ein CEO, der dein Produktdenken hinterfragt, ein Staff Engineer, der die Architektur reviewt, ein QA Lead, der im echten Browser testet, ein Release Engineer, der deinen PR schippt.

Ich nutze gstack seit ein paar Wochen neben meinem eigenen Agent-Skills Setup. Hier erfährst du, was es tatsächlich macht, wie es unter der Haube funktioniert und wo es im wachsenden Ökosystem der Claude Code Frameworks einzuordnen ist.


Wer ist Garry Tan (und warum ist das relevant)

Kurzer Kontext, denn der Hintergrund des Autors erklärt die Philosophie des Frameworks:

  • President & CEO von Y Combinator seit Januar 2023
  • Stanford CS-Absolvent, früher Engineer bei Palantir (ihm wird das ursprüngliche Logo und Design System des Unternehmens zugeschrieben)
  • Mitgründer von Posterous (2012 von Twitter übernommen)
  • Gründer von Initialized Capital, einer Venture-Firma hinter Coinbase, Instacart und anderen
  • Behauptet, 600.000+ Zeilen Produktionscode in 60 Tagen mit gstack geschrieben zu haben - nebenberuflich, während er YC leitet

Der letzte Punkt ist entscheidend. Tan baut gstack nicht als Nebenprojekt eines Produktteams. Er baut es, weil er ein Gründer-Ingenieur ist, der täglich codet und frustriert war von der Kluft zwischen “AI kann Code schreiben” und “AI kann mir helfen, klar darüber nachzudenken, was ich bauen sollte.”


Das Problem - Vibe Coding ohne Leitplanken

Wenn du Claude Code für ein ernstes Projekt genutzt hast, kennst du diese Wand: Die AI ist schnell, leistungsfähig und völlig ungesteuert. Ohne Struktur verfällst du in das, was Tan “Vibe Coding” nennt - die AI Code generieren lassen ohne disziplinierte Planung, Review oder Tests.

Die Symptome sind bekannt:

  • Du fängst an zu bauen, bevor du durchdacht hast, was du baust
  • Niemand reviewt die Architektur, bevor die Implementierung beginnt
  • Testen passiert im Nachhinein (wenn überhaupt)
  • Security Auditing ist “mach ich später”
  • Shipping ist ein manueller, fehleranfälliger Prozess

Ein echtes Engineering-Team löst das mit Rollen. Der Product Manager hinterfragt den Scope. Der Architekt reviewt das Design. Der QA-Engineer testet vor dem Shipping. Der Security-Engineer auditiert vor dem Deploy. Solo-Entwickler mit AI-Assistenten bekommen nichts davon - es sei denn, sie erzwingen die Struktur selbst.

Genau das macht gstack. Es erzwingt Struktur, indem es Claude Code 23 verschiedene Spezialistenpersönlichkeiten gibt, jede mit eigener Methodik, eigenen Einschränkungen und eigenem Output-Format.


Wie gstack funktioniert

Das Kernmodell - Strukturierte Rollenspezialisierung

Das ist das Wichtigste, was du verstehen musst: gstack ist keine Multi-Agent-Orchestrierung. Es ist eine einzelne Claude Code Instanz, die auf deinen Befehl zwischen Spezialistenrollen wechselt. Du entscheidest, wann du von “Product Review” zu “Engineering Review” zu “Implementierung” zu “QA” wechselst. Die AI delegiert nicht autonom zwischen Rollen.

Das ist eine bewusste Entscheidung. Wie Tan es ausdrückt: “Planung ist nicht Review. Review ist nicht Shipping… Ich will explizite Gänge.”

Der Workflow folgt einem Sprint-Zyklus: Denken - Planen - Bauen - Reviewen - Testen - Shippen - Reflektieren. Jede Phase ist mit spezifischen Slash Commands verknüpft.

Architektur unter der Haube

gstack ist in TypeScript (80%) und Go (18%) geschrieben, läuft auf Bun mit einem kompilierten ~58MB-Binary. Drei technische Entscheidungen stechen hervor:

1. SKILL.md Dateien

Jede Spezialistenrolle ist in einer SKILL.md-Datei definiert - Anthropics portabler Markdown-Standard zur Codierung von Agent-Verhalten. Diese Dateien enthalten strukturierte Prompts mit YAML-Frontmatter. Sie sind Klartext, versionierbar und portabel über Claude Code, OpenAI Codex CLI, GitHub Copilot, Cursor und andere Hosts hinweg.

2. Persistenter Browser-Daemon

Statt bei jedem QA- oder Design-Review-Befehl einen Browser kalt zu starten, betreibt gstack eine langlebige Chromium-Instanz über Playwright. Der erste Befehl braucht ~3 Sekunden zum Starten; nachfolgende Befehle antworten in ~100-200ms. Der Daemon fährt nach 30 Minuten Inaktivität automatisch herunter.

Der Zustand wird in .gstack/browse.json verfolgt (PID, Port, Bearer Token). Zufällige Ports zwischen 10.000-60.000 verhindern Konflikte über mehrere Workspaces hinweg.

3. Accessibility-First Referenzsystem

Wenn gstacks Browser-Daemon eine Seite aufnimmt, nutzt er keine CSS-Selektoren. Er verwendet Playwrights Accessibility Tree, um sequenzielle Refs (@e1, @e2, @e3) zu generieren, die über getByRole()-Queries aufgelöst werden. Das funktioniert durch Shadow DOM, respektiert Content Security Policy und ist robuster als selectorbasierte Ansätze.


Installation - 30 Sekunden

Voraussetzungen: Claude Code, Git, Bun v1.0+

# Clone and setup
git clone --single-branch --depth 1 \
  https://github.com/garrytan/gstack.git \
  ~/.claude/skills/gstack

cd ~/.claude/skills/gstack && ./setup

Das war’s. Alle Slash Commands sind sofort in deiner nächsten Claude Code Session verfügbar.

Für Teams (geteilte Repos mit Auto-Updates):

# Enable team mode
cd ~/.claude/skills/gstack && ./setup --team

# Initialize in your project
cd <your-repo>
~/.claude/skills/gstack/bin/gstack-team-init required

# Commit the configuration
git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"

Deinstallation:

~/.claude/skills/gstack/bin/gstack-uninstall

Das Setup-Skript erkennt automatisch deinen Host (Claude Code, Codex, OpenCode, Cursor, Factory Droid, Slate, Kiro). Du kannst auch einen bestimmten Host mit ./setup --host <name> angeben.


Die 23 Spezialistenrollen

Hier sind alle Slash Commands, die gstack hinzufügt, geordnet nach Entwicklungsphase.

Planung & Strategie

BefehlRolleWas er macht
/office-hoursProdukt-InterrogatorStellt 6 zwingende Fragen, bevor du eine Zeile Code schreibst. Wechselt zwischen Startup-Modus und Builder-Modus
/plan-ceo-reviewFounder/CEODenkt aus Nutzerperspektive neu. Vier Scope-Modi: expand, selective, hold, reduce
/plan-eng-reviewEngineering ManagerArchitektur-Lock-in mit Diagrammen und Testplänen. Das einzige verpflichtende Gate im Workflow
/plan-design-reviewSenior Designer7-Pass-Evaluation, bewertet 0-10, schlägt konkrete Fixes vor
/plan-devex-reviewDevEx-SpezialistDeveloper-Experience-Optimierung - API-Ergonomie, Fehlermeldungen, Onboarding-Friction
/autoplanAlle PlanungsrollenFührt CEO-, Design- und Eng-Review sequenziell in einem Befehl aus

Design

BefehlRolleWas er macht
/design-consultationDesign DirectorErstellt ein komplettes Design System von Grund auf: Wettbewerbsrecherche, Tokens, Komponenteninventar, schreibt DESIGN.md
/design-shotgunVisual DesignerGeneriert 3-6 Mockup-Varianten mit GPT Image, erstellt ein Vergleichsboard
/design-reviewDesign-Auditor80-Punkte-Visual-Audit mit automatischen CSS-Fixes und Vorher/Nachher-Screenshots
/design-htmlFrontend-EngineerKonvertiert Mockups in produktionsreifes HTML mit Framework-Erkennung

Code-Qualität

BefehlRolleWas er macht
/reviewStaff EngineerFindet Produktionsfehler, die CI bestehen. Behebt offensichtliche Issues automatisch, flaggt nicht-offensichtliche
/investigateDebuggerRoot-Cause-Debugging mit einer harten Regel: keine Fixes ohne vorherige Untersuchung. Stoppt nach 3 fehlgeschlagenen Versuchen
/csoChief Security OfficerOWASP Top 10 Scan plus STRIDE Threat Modeling

Testing

BefehlRolleWas er macht
/qaQA LeadEchtes Browser-Testing über den Playwright-Daemon, Bug-Fixes, Regressionstestgenerierung
/qa-onlyQA ReporterGleiche Methodik wie /qa, aber nur Bericht - keine Codeänderungen
/benchmarkPerformance EngineerCore Web Vitals, Seitenladezeiten, Ressourcengrößen, Vorher/Nachher-Vergleich

Deployment

BefehlRolleWas er macht
/shipRelease EngineerSynchronisiert Branch, führt Tests aus, prüft Coverage, pusht, öffnet PR
/land-and-deployDeploy EngineerMergt PR, wartet auf CI, verifiziert Produktions-Health
/canaryMonitoringPost-Deploy-Überwachung auf Konsolenfehler und Regressionen
/document-releaseDoc EngineerAktualisiert automatisch alle Projektdokumentation passend zu den geschippten Änderungen

Utilities

BefehlWas er macht
/browseEchter Chromium Browser mit ~100ms Antwortlatenz
/setup-browser-cookiesImportiert Cookies aus Chrome, Arc, Brave oder Edge über macOS Keychain
/codexOpenAI Codex CLI Zweitmeinung (Review-, Adversarial- oder Konsultationsmodus)
/carefulSicherheitsleitplanken für destruktive Befehle
/freeze / /unfreezeBeschränkt Dateibearbeitungen auf bestimmte Verzeichnisse
/learnSpeichert gelernte Muster sitzungsübergreifend
/retroWöchentliche Engineering-Retrospektive

Ein typischer gstack-Workflow

So sieht eine echte Feature-Entwicklungssession aus:

1. /office-hours        → "Was bauen wir und warum?"
2. /plan-ceo-review     → "Ergibt dieser Scope aus Nutzerperspektive Sinn?"
3. /plan-eng-review     → "Ist die Architektur solide?" (verpflichtendes Gate)
4. [implementieren]     → Standard Claude Code Coding
5. /review              → Staff Engineer findet Produktionsfehler
6. /cso                 → Security Audit
7. /qa                  → Echtes Browser-Testing
8. /ship                → PR geöffnet, Tests bestanden
9. /land-and-deploy     → Gemergt und deployed
10. /canary             → Post-Deploy-Monitoring

Du musst nicht jeden Schritt jedes Mal durchlaufen. Aber die expliziten Phasen verhindern die “Ich vibe-code das mal eben schnell”-Falle, die dazu führt, dass ungetesteter, unreviewter Code geschippt wird.


Sicherheitsmodell

gstacks Browser-Daemon läuft mit vernünftigen Sicherheitsstandards:

  • Localhost-only Binding - kein Netzwerkzugriff von außen
  • Bearer Token Auth pro Session, gespeichert in Dateien mit Modus 0o600
  • Cookie-Import aus Chrome/Arc/Brave/Edge nutzt macOS Keychain (read-only, prozessinterne Entschlüsselung, niemals im Klartext gespeichert)
  • Bun.spawn() mit expliziten Argument-Arrays verhindert Shell-Injection

Drei zirkuläre Log-Buffer (je 50.000 Einträge) erfassen Konsolenmeldungen, Netzwerkanfragen und Dialoge. Asynchroner Flush jede Sekunde nach .gstack/*.log.


Wie gstack im Vergleich zu anderen Frameworks abschneidet

gstack existiert neben zwei anderen großen Claude Code Enhancement-Frameworks. Sie lösen unterschiedliche Probleme:

Dimensiongstack (~50K Stars)Superpowers (~94K Stars)GSD (~35K Stars)
BeschränktEntscheidungsperspektiveEntwicklungsprozessAusführungsumgebung
Philosophie”Welchen Hut aufsetzen""Welche Schritte befolgen""Frischer Kontext pro Aufgabe”
StärkeErzwingt Klarheit vor dem CodenReduziert Regressions-Bugs via TDDQualität bei 50+ Datei-Projekten
SchwächeKein expliziter Build-Phase-SkillLangsamere Builds (Test-first-Overhead)Komplexeres Setup
Ideal fürGründer-Ingenieure mit vielen HütenSolo-Devs, die Prozessdisziplin brauchenKomplexe Projekte, die Context Windows sprengen

Die zentrale Erkenntnis: Diese Frameworks überlappen sich kaum. gstack steuert die Perspektive (in welcher Rolle bist du?), Superpowers steuert den Prozess (welche Schritte befolgst du?) und GSD steuert die Umgebung (wie managst du den Kontext?). Du kannst sie zusammen nutzen.

Mein eigenes Setup kombiniert gstacks Planungsphasen mit Agent-Skills für den Build/Test/Review-Zyklus. Die beiden ergänzen sich gut - gstack stellt die harten Produktfragen, bevor das Coden beginnt, Agent-Skills erzwingt Engineering-Disziplin während der Implementierung.


Was mir gefällt

Die Rollenzerlegung ist die eigentliche Erkenntnis. Die Idee, dass ein AI-Coding-Assistent zwischen verschiedenen Spezialistenperspektiven wechseln sollte - nicht nur ein generischer “hilfreicher Coder” sein - ist das Muster, das es sich lohnt zu übernehmen, unabhängig davon, ob du speziell gstack nutzt. Es zwingt dich, darüber nachzudenken, in welcher Phase du bist, bevor du anfängst zu tippen.

/office-hours ist wirklich nützlich. Eine AI, die dein Produktdenken hinterfragt, bevor du Code schreibst, spart mehr Zeit als jedes Code-Review-Tool. Die sechs zwingenden Fragen decken Annahmen auf, von denen du nicht wusstest, dass du sie machst.

Der Browser-Daemon ist gut engineered. Persistentes Chromium mit Accessibility-Tree-Refs ist eine bessere Architektur als bei jedem Befehl einen Browser kalt zu starten. Die ~100ms Latenz lässt iterative QA-Sessions reaktionsschnell anfühlen.

Portabilität zählt. Weil alles auf SKILL.md-Dateien aufgebaut ist, funktionieren die Rollen über Claude Code, Codex, Cursor und andere Hosts hinweg. Du bist nicht an ein Tool gebunden.


Worauf ich achten würde

Es ist strukturiertes Rollenspiel, keine echte Multi-Agent-Orchestrierung. Wenn du erwartest, dass Agents autonom Arbeit aneinander delegieren - das ist es nicht. Du bist der Orchestrator. Jeder Slash Command aktiviert eine einzelne Spezialistenpersönlichkeit in einer Claude Code Session.

Die 600K-LOC-Behauptung braucht Kontext. Tans Produktivitätszahlen stammen aus dem Betrieb von gstack zusammen mit Conductor - einer separaten Mac-App, die mehrere Claude Code Instanzen in isolierten Git-Worktrees ausführt. gstack allein gibt dir keinen Parallelismus.

Lange Agent-Loops können passieren. Ein Entwickler berichtete von einem 70-Minuten-Loop, in dem /qa immer wieder Staging-URLs in Produktionsdateien einfügte. Wie bei jedem agentischen Workflow musst du in der Loop bleiben und eingreifen, wenn Dinge schiefgehen.

Einige Befehle überlappen sich mit bestehenden Setups. Wenn du bereits Agent-Skills oder Superpowers nutzt, wirst du feststellen, dass /review und /ship Ähnliches tun wie Skills, die du bereits hast. Wähle eines oder sei bewusst darin, welches Framework welche Phase übernimmt.


Die Meta-Lektion

Das Interessanteste an gstack ist nicht der Code. Es ist die These: Der Engpass bei AI-gestützter Entwicklung ist nicht Intelligenz, sondern Struktur. Claude Code ist bereits schlau genug, um guten Code zu schreiben, Bugs zu finden und Verbesserungen vorzuschlagen. Was fehlt - was allen AI-Coding-Assistenten fehlt - ist ein Framework, das entscheidet, wann man worüber nachdenken sollte.

gstacks Antwort ist Rollenzerlegung. Bevor du baust, denke wie ein CEO. Bevor du shippst, denke wie ein QA Lead. Bevor du deployst, denke wie ein Security Officer. Die AI muss nicht schlauer werden. Sie muss den richtigen Hut zur richtigen Zeit tragen.

Ob du gstack übernimmst, dein eigenes Rollensystem baust oder einfach das Prinzip verinnerlichst - das Muster ist es wert, gelernt zu werden. Die Entwickler, die 2026 den besten AI-gestützten Code shippen, sind nicht diejenigen mit den leistungsfähigsten Modellen. Es sind diejenigen mit den diszipliniertesten Workflows.


Ressourcen

claude-code gstack garry-tan skills agentic-ai workflow productivity y-combinator code-review qa

Verwandte Artikel