gstack - Le framework de Garry Tan qui transforme Claude Code en equipe d'ingenierie virtuelle

Quand le CEO de Y Combinator publie sa configuration personnelle de Claude Code et que ca atteint 50 000 etoiles sur GitHub en moins d’un mois, tu fais attention. Pas parce que la celebrite garantit la qualite - mais parce que Garry Tan est l’un des rares VC-fondateurs qui ecrit encore du code de production quotidiennement, et le framework qu’il a construit reflete une vision specifique et tranchee de la facon dont le developpement assiste par IA devrait fonctionner.

gstack n’est pas un nouveau modele d’IA. Ce n’est pas un produit SaaS. C’est une collection de 23 roles de specialistes et 8 outils avances, tous accessibles via des slash commands dans Claude Code. L’idee centrale : arrete de traiter ton assistant IA comme un generaliste unique, et commence a le traiter comme une equipe de specialistes - un CEO qui challenge ta reflexion produit, un staff engineer qui review l’architecture, un QA lead qui teste dans un vrai browser, un release engineer qui shippe ta PR.

J’utilise gstack en parallele de ma propre configuration Agent-Skills depuis quelques semaines. Voici ce que ca fait concretement, comment ca fonctionne sous le capot, et ou ca se situe dans l’ecosysteme grandissant des frameworks Claude Code.

Qui est Garry Tan (et pourquoi c’est important)

Un peu de contexte, parce que le parcours de l’auteur explique la philosophie du framework :

President & CEO de Y Combinator depuis janvier 2023
Diplome de Stanford CS, ingenieur early-stage chez Palantir (credite du logo original et du design system de l’entreprise)
Co-fondateur de Posterous (acquis par Twitter en 2012)
Fondateur d’Initialized Capital, un fonds de venture qui a soutenu Coinbase, Instacart, et d’autres
Affirme avoir shippe 600 000+ lignes de code de production en 60 jours avec gstack - a temps partiel, tout en dirigeant YC

Ce dernier point est important. Tan ne construit pas gstack comme un side project d’une equipe produit. Il le construit parce que c’est un fondateur-ingenieur qui code tous les jours et qui en avait marre du fosse entre “l’IA sait ecrire du code” et “l’IA peut m’aider a reflechir clairement a ce qu’il faut construire.”

Le probleme - le vibe coding sans garde-fous

Si tu as utilise Claude Code pour un projet serieux, tu as deja touche ce mur : l’IA est rapide, capable, et completement sans direction. Sans structure, tu tombes dans ce que Tan appelle le “vibe coding” - laisser l’IA generer du code sans planification disciplinee, sans review, ni tests.

Les symptomes sont familiers :

Tu commences a construire avant d’avoir reflechi a ce que tu construis
Personne ne review l’architecture avant que l’implementation ne commence
Les tests arrivent apres coup (si tant est qu’ils arrivent)
L’audit de securite c’est “je le ferai plus tard”
Le deploiement est un processus manuel, sujet aux erreurs

Une vraie equipe d’ingenierie resout ca avec des roles. Le product manager challenge le scope. L’architecte review le design. L’ingenieur QA teste avant le shipping. L’ingenieur securite audite avant le deploy. Les developpeurs solo qui utilisent des assistants IA n’ont rien de tout ca - sauf s’ils imposent eux-memes la structure.

C’est exactement ce que fait gstack. Il impose la structure en donnant a Claude Code 23 personas de specialistes distincts, chacun avec sa propre methodologie, ses contraintes et son format de sortie.

Comment fonctionne gstack

Le modele central - la specialisation structuree par roles

C’est la chose la plus importante a comprendre : gstack n’est pas de l’orchestration multi-agent. C’est une seule instance de Claude Code qui bascule entre des roles de specialistes sur ta commande. C’est toi qui decides quand passer du “product review” a l‘“engineering review”, puis a l‘“implementation”, puis au “QA.” L’IA ne delegue pas de maniere autonome entre les roles.

C’est un choix delibere. Comme le dit Tan : “La planification n’est pas le review. Le review n’est pas le shipping… Je veux des vitesses explicites.”

Le workflow suit un cycle de sprint : Reflechir - Planifier - Construire - Reviewer - Tester - Shipper - Retrospecter. Chaque phase correspond a des slash commands specifiques.

L’architecture sous le capot

gstack est construit en TypeScript (80%) et Go (18%), tourne sur Bun avec un binaire compile d’environ 58 Mo. Trois choix techniques se demarquent :

1. Les fichiers SKILL.md

Chaque role de specialiste est defini dans un fichier SKILL.md - le standard markdown portable d’Anthropic pour encoder les comportements d’agents. Ces fichiers contiennent des prompts structures avec un frontmatter YAML. Ce sont des fichiers texte, versionables, et portables entre Claude Code, OpenAI Codex CLI, GitHub Copilot, Cursor et d’autres hosts.

2. Le browser daemon persistant

Au lieu de demarrer un browser a froid pour chaque commande QA ou design review, gstack fait tourner une instance Chromium persistante via Playwright. La premiere commande prend environ 3 secondes au demarrage ; les commandes suivantes repondent en environ 100-200 ms. Le daemon s’arrete automatiquement apres 30 minutes d’inactivite.

L’etat est suivi dans .gstack/browse.json (PID, port, bearer token). Des ports aleatoires entre 10 000 et 60 000 evitent les conflits entre plusieurs workspaces.

3. Le systeme de references base sur l’accessibilite

Quand le browser daemon de gstack prend un snapshot d’une page, il n’utilise pas de selecteurs CSS. Il utilise l’arbre d’accessibilite de Playwright pour generer des refs sequentielles (@e1, @e2, @e3) resolues via des requetes getByRole(). Ca fonctionne a travers le Shadow DOM, respecte la Content Security Policy, et c’est plus robuste que les approches basees sur les selecteurs.

Installation - 30 secondes

Pre-requis : Claude Code, Git, Bun v1.0+

# Clone and setup
git clone --single-branch --depth 1 \
  https://github.com/garrytan/gstack.git \
  ~/.claude/skills/gstack

cd ~/.claude/skills/gstack && ./setup

C’est tout. Toutes les slash commands sont immediatement disponibles dans ta prochaine session Claude Code.

Pour une utilisation en equipe (repos partages avec mises a jour automatiques) :

# Enable team mode
cd ~/.claude/skills/gstack && ./setup --team

# Initialize in your project
cd <your-repo>
~/.claude/skills/gstack/bin/gstack-team-init required

# Commit the configuration
git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"

Desinstallation :

~/.claude/skills/gstack/bin/gstack-uninstall

Le script de setup detecte automatiquement ton host (Claude Code, Codex, OpenCode, Cursor, Factory Droid, Slate, Kiro). Tu peux aussi cibler un host specifique avec ./setup --host <name>.

Les 23 roles de specialistes

Voici toutes les slash commands que gstack ajoute, organisees par phase de developpement.

Planification & strategie

Commande	Role	Ce que ca fait
`/office-hours`	Interrogateur produit	Pose 6 questions structurantes avant que tu ecrives une seule ligne de code. S’adapte entre mode startup et mode builder
`/plan-ceo-review`	Fondateur/CEO	Repense depuis la perspective utilisateur. Quatre modes de scope : expand, selective, hold, reduce
`/plan-eng-review`	Engineering manager	Verrouillage architectural avec diagrammes et plans de tests. La seule gate obligatoire du workflow
`/plan-design-review`	Senior designer	Evaluation en 7 passes, note de 0 a 10, suggestions de corrections specifiques
`/plan-devex-review`	Specialiste DevEx	Optimisation de l’experience developpeur - ergonomie des API, messages d’erreur, friction d’onboarding
`/autoplan`	Tous les roles de planification	Execute le CEO, Design et Eng review sequentiellement en une seule commande

Design

Commande	Role	Ce que ca fait
`/design-consultation`	Directeur design	Cree un design system complet de zero : recherche competitive, tokens, inventaire de composants, ecrit un DESIGN.md
`/design-shotgun`	Designer visuel	Genere 3 a 6 variantes de mockups via GPT Image, produit un tableau comparatif
`/design-review`	Auditeur design	Audit visuel de 80 elements avec corrections CSS automatiques et screenshots avant/apres
`/design-html`	Ingenieur frontend	Convertit les mockups en HTML de production avec detection du framework

Qualite du code

Commande	Role	Ce que ca fait
`/review`	Staff engineer	Trouve les bugs de production qui passent la CI. Corrige automatiquement les problemes evidents, signale les moins evidents
`/investigate`	Debugger	Debogage en recherche de cause racine avec une regle stricte : aucun correctif sans investigation d’abord. S’arrete apres 3 tentatives echouees
`/cso`	Chief Security Officer	Scan OWASP Top 10 plus modelisation des menaces STRIDE

Tests

Commande	Role	Ce que ca fait
`/qa`	QA lead	Tests dans un vrai browser via le daemon Playwright, corrections de bugs, generation de tests de regression
`/qa-only`	Rapporteur QA	Meme methodologie que `/qa`, mais rapport uniquement - aucune modification de code
`/benchmark`	Ingenieur performance	Core Web Vitals, temps de chargement, tailles des ressources, comparaison avant/apres

Deploiement

Commande	Role	Ce que ca fait
`/ship`	Release engineer	Synchronise la branche, lance les tests, audite la couverture, push, ouvre une PR
`/land-and-deploy`	Deploy engineer	Merge la PR, attend la CI, verifie la sante en production
`/canary`	Monitoring	Surveillance post-deploy des erreurs console et regressions
`/document-release`	Ingenieur documentation	Met a jour automatiquement toute la documentation projet pour correspondre aux changements shippes

Utilitaires

Commande	Ce que ca fait
`/browse`	Vrai browser Chromium avec une latence d’environ 100 ms
`/setup-browser-cookies`	Importe les cookies depuis Chrome, Arc, Brave ou Edge via le macOS Keychain
`/codex`	Second avis via OpenAI Codex CLI (mode review, adversarial ou consultation)
`/careful`	Garde-fous de securite pour les commandes destructrices
`/freeze` / `/unfreeze`	Restreint les modifications de fichiers a des repertoires specifiques
`/learn`	Persiste les patterns appris entre les sessions
`/retro`	Retrospective d’ingenierie hebdomadaire

Un workflow gstack typique

Voici a quoi ressemble une vraie session de developpement de feature :

1. /office-hours        → "Qu'est-ce qu'on construit et pourquoi ?"
2. /plan-ceo-review     → "Est-ce que ce scope a du sens du point de vue utilisateur ?"
3. /plan-eng-review     → "Est-ce que l'architecture est solide ?" (gate obligatoire)
4. [implementation]     → Coding standard avec Claude Code
5. /review              → Le staff engineer detecte les bugs de production
6. /cso                 → Audit de securite
7. /qa                  → Tests dans un vrai browser
8. /ship                → PR ouverte, tests qui passent
9. /land-and-deploy     → Merge et deploye
10. /canary             → Monitoring post-deploy

Tu n’es pas oblige de lancer chaque etape a chaque fois. Mais les phases explicites empechent le piege du “je vais juste vibe coder ca vite fait” qui mene a shipper du code non teste et non reviewe.

Modele de securite

Le browser daemon de gstack tourne avec des parametres de securite raisonnables :

Binding localhost uniquement - pas d’acces reseau depuis l’exterieur
Authentification par bearer token par session, stocke dans des fichiers en mode 0o600
Import de cookies depuis Chrome/Arc/Brave/Edge utilise le macOS Keychain (lecture seule, dechiffrement in-process, jamais persiste en clair)
Bun.spawn() avec des tableaux d’arguments explicites previent l’injection shell

Trois buffers circulaires de logs (50 000 entrees chacun) capturent les messages console, les requetes reseau et les dialogues. Flush asynchrone chaque seconde vers .gstack/*.log.

Comment gstack se compare aux autres frameworks

gstack existe aux cotes de deux autres grands frameworks d’amelioration de Claude Code. Ils resolvent des problemes differents :

Dimension	gstack (~50K etoiles)	Superpowers (~94K etoiles)	GSD (~35K etoiles)
Contraint	La perspective decisionnelle	Le processus de developpement	L’environnement d’execution
Philosophie	”Quel chapeau porter"	"Quelles etapes suivre"	"Un contexte frais par tache”
Point fort	Force la clarte avant le code	Reduit les bugs de regression via le TDD	Qualite sur les projets de 50+ fichiers
Point faible	Pas de skill de phase Build explicite	Builds plus lents (overhead du test-first)	Setup plus complexe
Ideal pour	Les fondateurs-ingenieurs qui portent plusieurs casquettes	Les devs solo qui ont besoin de discipline de processus	Les projets complexes qui depassent les fenetres de contexte

L’insight cle : ces frameworks se chevauchent a peine. gstack gouverne la perspective (dans quel role es-tu ?), Superpowers gouverne le processus (quelles etapes suis-tu ?) et GSD gouverne l’environnement (comment geres-tu le contexte ?). Tu peux les utiliser ensemble.

Ma propre configuration combine les phases de planification de gstack avec Agent-Skills pour le cycle build/test/review. Les deux se complementent bien - gstack pose les questions produit difficiles avant que le code ne commence, Agent-Skills impose la discipline d’ingenierie pendant l’implementation.

Ce que j’apprecie

La decomposition en roles est le vrai insight. L’idee qu’un assistant de coding IA devrait basculer entre des perspectives de specialistes distinctes - et pas juste etre un “codeur serviable” generique - c’est le pattern qui vaut la peine d’etre adopte, que tu utilises gstack specifiquement ou non. Ca te force a reflechir a dans quelle phase tu es avant de commencer a taper.

/office-hours est veritablement utile. Avoir une IA qui challenge ta reflexion produit avant d’ecrire du code fait gagner plus de temps que n’importe quel outil de code review. Les six questions structurantes revelent des hypotheses que tu ne savais meme pas que tu faisais.

Le browser daemon est bien concu. Un Chromium persistant avec des refs basees sur l’arbre d’accessibilite, c’est une meilleure architecture que de demarrer un browser a froid a chaque commande. La latence d’environ 100 ms rend les sessions de QA iteratives fluides.

La portabilite compte. Parce que tout est construit sur des fichiers SKILL.md, les roles fonctionnent sur Claude Code, Codex, Cursor et d’autres hosts. Tu n’es pas enferme dans un seul outil.

Ce qui merite vigilance

C’est du role-play structure, pas de la vraie orchestration multi-agent. Si tu t’attends a des agents qui se deleguent le travail de maniere autonome, ce n’est pas ca. C’est toi l’orchestrateur. Chaque slash command active un seul persona de specialiste dans une session Claude Code.

L’affirmation des 600K LOC necessite du contexte. Les chiffres de productivite de Tan viennent de l’utilisation de gstack conjointement avec Conductor - une application Mac separee qui fait tourner plusieurs instances de Claude Code dans des Git worktrees isoles. gstack seul ne te donne pas le parallelisme.

Les boucles longues d’agent peuvent arriver. Un developpeur a rapporte une boucle de 70 minutes ou /qa injectait constamment des URLs de staging dans des fichiers de production. Comme pour tout workflow agentique, tu dois rester dans la boucle et interrompre quand les choses derapent.

Certaines commandes font doublon avec des setups existants. Si tu utilises deja Agent-Skills ou Superpowers, tu trouveras que /review et /ship font des choses similaires a des skills que tu as deja. Choisis l’un ou l’autre, ou sois delibere sur quel framework gere quelle phase.

La meta-lecon

La chose la plus interessante a propos de gstack n’est pas le code. C’est la these : le goulot d’etranglement dans le developpement assiste par IA n’est pas l’intelligence, c’est la structure. Claude Code est deja assez intelligent pour ecrire du bon code, trouver des bugs et suggerer des ameliorations. Ce qui lui manque - ce qui manque a tous les assistants de coding IA - c’est un framework pour decider quand reflechir a quoi.

La reponse de gstack, c’est la decomposition en roles. Avant de construire, pense comme un CEO. Avant de shipper, pense comme un QA lead. Avant de deployer, pense comme un responsable securite. L’IA n’a pas besoin d’etre plus intelligente. Elle a besoin de porter le bon chapeau au bon moment.

Que tu adoptes gstack, que tu construises ton propre systeme de roles, ou que tu internalises simplement le principe - le pattern vaut la peine d’etre appris. Les developpeurs qui shippent le meilleur code assiste par IA en 2026 ne sont pas ceux qui ont les modeles les plus puissants. Ce sont ceux qui ont les workflows les plus disciplines.

Ressources

GitHub : garrytan/gstack (licence MIT, ~50K etoiles)
Site officiel : gstacks.org
Architecture en detail : ARCHITECTURE.md
Couverture TechCrunch : Why Garry Tan’s Claude Code setup has gotten so much love, and hate
Analyse Agents Codex : Garry Tan’s gstack and the rise of AI agent teams
Comparaison avec d’autres frameworks : Superpowers, GSD, and gstack - what each framework constrains