Skip to content
Retour à Tech
GenAI · 14 min de lecture

gstack - Le framework de Garry Tan qui transforme Claude Code en equipe d'ingenierie virtuelle

Comment le toolkit open-source du CEO de Y Combinator structure le coding AI autour de 23 roles specialises - du product review a l'audit de securite - et pourquoi le pattern de decomposition en roles compte plus que l'outil lui-meme.

Partager
Sur cette page

Quand le CEO de Y Combinator publie sa configuration personnelle de Claude Code et que ca atteint 50 000 etoiles sur GitHub en moins d’un mois, tu fais attention. Pas parce que la celebrite garantit la qualite - mais parce que Garry Tan est l’un des rares VC-fondateurs qui ecrit encore du code de production quotidiennement, et le framework qu’il a construit reflete une vision specifique et tranchee de la facon dont le developpement assiste par IA devrait fonctionner.

gstack n’est pas un nouveau modele d’IA. Ce n’est pas un produit SaaS. C’est une collection de 23 roles de specialistes et 8 outils avances, tous accessibles via des slash commands dans Claude Code. L’idee centrale : arrete de traiter ton assistant IA comme un generaliste unique, et commence a le traiter comme une equipe de specialistes - un CEO qui challenge ta reflexion produit, un staff engineer qui review l’architecture, un QA lead qui teste dans un vrai browser, un release engineer qui shippe ta PR.

J’utilise gstack en parallele de ma propre configuration Agent-Skills depuis quelques semaines. Voici ce que ca fait concretement, comment ca fonctionne sous le capot, et ou ca se situe dans l’ecosysteme grandissant des frameworks Claude Code.


Qui est Garry Tan (et pourquoi c’est important)

Un peu de contexte, parce que le parcours de l’auteur explique la philosophie du framework :

  • President & CEO de Y Combinator depuis janvier 2023
  • Diplome de Stanford CS, ingenieur early-stage chez Palantir (credite du logo original et du design system de l’entreprise)
  • Co-fondateur de Posterous (acquis par Twitter en 2012)
  • Fondateur d’Initialized Capital, un fonds de venture qui a soutenu Coinbase, Instacart, et d’autres
  • Affirme avoir shippe 600 000+ lignes de code de production en 60 jours avec gstack - a temps partiel, tout en dirigeant YC

Ce dernier point est important. Tan ne construit pas gstack comme un side project d’une equipe produit. Il le construit parce que c’est un fondateur-ingenieur qui code tous les jours et qui en avait marre du fosse entre “l’IA sait ecrire du code” et “l’IA peut m’aider a reflechir clairement a ce qu’il faut construire.”


Le probleme - le vibe coding sans garde-fous

Si tu as utilise Claude Code pour un projet serieux, tu as deja touche ce mur : l’IA est rapide, capable, et completement sans direction. Sans structure, tu tombes dans ce que Tan appelle le “vibe coding” - laisser l’IA generer du code sans planification disciplinee, sans review, ni tests.

Les symptomes sont familiers :

  • Tu commences a construire avant d’avoir reflechi a ce que tu construis
  • Personne ne review l’architecture avant que l’implementation ne commence
  • Les tests arrivent apres coup (si tant est qu’ils arrivent)
  • L’audit de securite c’est “je le ferai plus tard”
  • Le deploiement est un processus manuel, sujet aux erreurs

Une vraie equipe d’ingenierie resout ca avec des roles. Le product manager challenge le scope. L’architecte review le design. L’ingenieur QA teste avant le shipping. L’ingenieur securite audite avant le deploy. Les developpeurs solo qui utilisent des assistants IA n’ont rien de tout ca - sauf s’ils imposent eux-memes la structure.

C’est exactement ce que fait gstack. Il impose la structure en donnant a Claude Code 23 personas de specialistes distincts, chacun avec sa propre methodologie, ses contraintes et son format de sortie.


Comment fonctionne gstack

Le modele central - la specialisation structuree par roles

C’est la chose la plus importante a comprendre : gstack n’est pas de l’orchestration multi-agent. C’est une seule instance de Claude Code qui bascule entre des roles de specialistes sur ta commande. C’est toi qui decides quand passer du “product review” a l‘“engineering review”, puis a l‘“implementation”, puis au “QA.” L’IA ne delegue pas de maniere autonome entre les roles.

C’est un choix delibere. Comme le dit Tan : “La planification n’est pas le review. Le review n’est pas le shipping… Je veux des vitesses explicites.”

Le workflow suit un cycle de sprint : Reflechir - Planifier - Construire - Reviewer - Tester - Shipper - Retrospecter. Chaque phase correspond a des slash commands specifiques.

L’architecture sous le capot

gstack est construit en TypeScript (80%) et Go (18%), tourne sur Bun avec un binaire compile d’environ 58 Mo. Trois choix techniques se demarquent :

1. Les fichiers SKILL.md

Chaque role de specialiste est defini dans un fichier SKILL.md - le standard markdown portable d’Anthropic pour encoder les comportements d’agents. Ces fichiers contiennent des prompts structures avec un frontmatter YAML. Ce sont des fichiers texte, versionables, et portables entre Claude Code, OpenAI Codex CLI, GitHub Copilot, Cursor et d’autres hosts.

2. Le browser daemon persistant

Au lieu de demarrer un browser a froid pour chaque commande QA ou design review, gstack fait tourner une instance Chromium persistante via Playwright. La premiere commande prend environ 3 secondes au demarrage ; les commandes suivantes repondent en environ 100-200 ms. Le daemon s’arrete automatiquement apres 30 minutes d’inactivite.

L’etat est suivi dans .gstack/browse.json (PID, port, bearer token). Des ports aleatoires entre 10 000 et 60 000 evitent les conflits entre plusieurs workspaces.

3. Le systeme de references base sur l’accessibilite

Quand le browser daemon de gstack prend un snapshot d’une page, il n’utilise pas de selecteurs CSS. Il utilise l’arbre d’accessibilite de Playwright pour generer des refs sequentielles (@e1, @e2, @e3) resolues via des requetes getByRole(). Ca fonctionne a travers le Shadow DOM, respecte la Content Security Policy, et c’est plus robuste que les approches basees sur les selecteurs.


Installation - 30 secondes

Pre-requis : Claude Code, Git, Bun v1.0+

# Clone and setup
git clone --single-branch --depth 1 \
  https://github.com/garrytan/gstack.git \
  ~/.claude/skills/gstack

cd ~/.claude/skills/gstack && ./setup

C’est tout. Toutes les slash commands sont immediatement disponibles dans ta prochaine session Claude Code.

Pour une utilisation en equipe (repos partages avec mises a jour automatiques) :

# Enable team mode
cd ~/.claude/skills/gstack && ./setup --team

# Initialize in your project
cd <your-repo>
~/.claude/skills/gstack/bin/gstack-team-init required

# Commit the configuration
git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"

Desinstallation :

~/.claude/skills/gstack/bin/gstack-uninstall

Le script de setup detecte automatiquement ton host (Claude Code, Codex, OpenCode, Cursor, Factory Droid, Slate, Kiro). Tu peux aussi cibler un host specifique avec ./setup --host <name>.


Les 23 roles de specialistes

Voici toutes les slash commands que gstack ajoute, organisees par phase de developpement.

Planification & strategie

CommandeRoleCe que ca fait
/office-hoursInterrogateur produitPose 6 questions structurantes avant que tu ecrives une seule ligne de code. S’adapte entre mode startup et mode builder
/plan-ceo-reviewFondateur/CEORepense depuis la perspective utilisateur. Quatre modes de scope : expand, selective, hold, reduce
/plan-eng-reviewEngineering managerVerrouillage architectural avec diagrammes et plans de tests. La seule gate obligatoire du workflow
/plan-design-reviewSenior designerEvaluation en 7 passes, note de 0 a 10, suggestions de corrections specifiques
/plan-devex-reviewSpecialiste DevExOptimisation de l’experience developpeur - ergonomie des API, messages d’erreur, friction d’onboarding
/autoplanTous les roles de planificationExecute le CEO, Design et Eng review sequentiellement en une seule commande

Design

CommandeRoleCe que ca fait
/design-consultationDirecteur designCree un design system complet de zero : recherche competitive, tokens, inventaire de composants, ecrit un DESIGN.md
/design-shotgunDesigner visuelGenere 3 a 6 variantes de mockups via GPT Image, produit un tableau comparatif
/design-reviewAuditeur designAudit visuel de 80 elements avec corrections CSS automatiques et screenshots avant/apres
/design-htmlIngenieur frontendConvertit les mockups en HTML de production avec detection du framework

Qualite du code

CommandeRoleCe que ca fait
/reviewStaff engineerTrouve les bugs de production qui passent la CI. Corrige automatiquement les problemes evidents, signale les moins evidents
/investigateDebuggerDebogage en recherche de cause racine avec une regle stricte : aucun correctif sans investigation d’abord. S’arrete apres 3 tentatives echouees
/csoChief Security OfficerScan OWASP Top 10 plus modelisation des menaces STRIDE

Tests

CommandeRoleCe que ca fait
/qaQA leadTests dans un vrai browser via le daemon Playwright, corrections de bugs, generation de tests de regression
/qa-onlyRapporteur QAMeme methodologie que /qa, mais rapport uniquement - aucune modification de code
/benchmarkIngenieur performanceCore Web Vitals, temps de chargement, tailles des ressources, comparaison avant/apres

Deploiement

CommandeRoleCe que ca fait
/shipRelease engineerSynchronise la branche, lance les tests, audite la couverture, push, ouvre une PR
/land-and-deployDeploy engineerMerge la PR, attend la CI, verifie la sante en production
/canaryMonitoringSurveillance post-deploy des erreurs console et regressions
/document-releaseIngenieur documentationMet a jour automatiquement toute la documentation projet pour correspondre aux changements shippes

Utilitaires

CommandeCe que ca fait
/browseVrai browser Chromium avec une latence d’environ 100 ms
/setup-browser-cookiesImporte les cookies depuis Chrome, Arc, Brave ou Edge via le macOS Keychain
/codexSecond avis via OpenAI Codex CLI (mode review, adversarial ou consultation)
/carefulGarde-fous de securite pour les commandes destructrices
/freeze / /unfreezeRestreint les modifications de fichiers a des repertoires specifiques
/learnPersiste les patterns appris entre les sessions
/retroRetrospective d’ingenierie hebdomadaire

Un workflow gstack typique

Voici a quoi ressemble une vraie session de developpement de feature :

1. /office-hours        → "Qu'est-ce qu'on construit et pourquoi ?"
2. /plan-ceo-review     → "Est-ce que ce scope a du sens du point de vue utilisateur ?"
3. /plan-eng-review     → "Est-ce que l'architecture est solide ?" (gate obligatoire)
4. [implementation]     → Coding standard avec Claude Code
5. /review              → Le staff engineer detecte les bugs de production
6. /cso                 → Audit de securite
7. /qa                  → Tests dans un vrai browser
8. /ship                → PR ouverte, tests qui passent
9. /land-and-deploy     → Merge et deploye
10. /canary             → Monitoring post-deploy

Tu n’es pas oblige de lancer chaque etape a chaque fois. Mais les phases explicites empechent le piege du “je vais juste vibe coder ca vite fait” qui mene a shipper du code non teste et non reviewe.


Modele de securite

Le browser daemon de gstack tourne avec des parametres de securite raisonnables :

  • Binding localhost uniquement - pas d’acces reseau depuis l’exterieur
  • Authentification par bearer token par session, stocke dans des fichiers en mode 0o600
  • Import de cookies depuis Chrome/Arc/Brave/Edge utilise le macOS Keychain (lecture seule, dechiffrement in-process, jamais persiste en clair)
  • Bun.spawn() avec des tableaux d’arguments explicites previent l’injection shell

Trois buffers circulaires de logs (50 000 entrees chacun) capturent les messages console, les requetes reseau et les dialogues. Flush asynchrone chaque seconde vers .gstack/*.log.


Comment gstack se compare aux autres frameworks

gstack existe aux cotes de deux autres grands frameworks d’amelioration de Claude Code. Ils resolvent des problemes differents :

Dimensiongstack (~50K etoiles)Superpowers (~94K etoiles)GSD (~35K etoiles)
ContraintLa perspective decisionnelleLe processus de developpementL’environnement d’execution
Philosophie”Quel chapeau porter""Quelles etapes suivre""Un contexte frais par tache”
Point fortForce la clarte avant le codeReduit les bugs de regression via le TDDQualite sur les projets de 50+ fichiers
Point faiblePas de skill de phase Build expliciteBuilds plus lents (overhead du test-first)Setup plus complexe
Ideal pourLes fondateurs-ingenieurs qui portent plusieurs casquettesLes devs solo qui ont besoin de discipline de processusLes projets complexes qui depassent les fenetres de contexte

L’insight cle : ces frameworks se chevauchent a peine. gstack gouverne la perspective (dans quel role es-tu ?), Superpowers gouverne le processus (quelles etapes suis-tu ?) et GSD gouverne l’environnement (comment geres-tu le contexte ?). Tu peux les utiliser ensemble.

Ma propre configuration combine les phases de planification de gstack avec Agent-Skills pour le cycle build/test/review. Les deux se complementent bien - gstack pose les questions produit difficiles avant que le code ne commence, Agent-Skills impose la discipline d’ingenierie pendant l’implementation.


Ce que j’apprecie

La decomposition en roles est le vrai insight. L’idee qu’un assistant de coding IA devrait basculer entre des perspectives de specialistes distinctes - et pas juste etre un “codeur serviable” generique - c’est le pattern qui vaut la peine d’etre adopte, que tu utilises gstack specifiquement ou non. Ca te force a reflechir a dans quelle phase tu es avant de commencer a taper.

/office-hours est veritablement utile. Avoir une IA qui challenge ta reflexion produit avant d’ecrire du code fait gagner plus de temps que n’importe quel outil de code review. Les six questions structurantes revelent des hypotheses que tu ne savais meme pas que tu faisais.

Le browser daemon est bien concu. Un Chromium persistant avec des refs basees sur l’arbre d’accessibilite, c’est une meilleure architecture que de demarrer un browser a froid a chaque commande. La latence d’environ 100 ms rend les sessions de QA iteratives fluides.

La portabilite compte. Parce que tout est construit sur des fichiers SKILL.md, les roles fonctionnent sur Claude Code, Codex, Cursor et d’autres hosts. Tu n’es pas enferme dans un seul outil.


Ce qui merite vigilance

C’est du role-play structure, pas de la vraie orchestration multi-agent. Si tu t’attends a des agents qui se deleguent le travail de maniere autonome, ce n’est pas ca. C’est toi l’orchestrateur. Chaque slash command active un seul persona de specialiste dans une session Claude Code.

L’affirmation des 600K LOC necessite du contexte. Les chiffres de productivite de Tan viennent de l’utilisation de gstack conjointement avec Conductor - une application Mac separee qui fait tourner plusieurs instances de Claude Code dans des Git worktrees isoles. gstack seul ne te donne pas le parallelisme.

Les boucles longues d’agent peuvent arriver. Un developpeur a rapporte une boucle de 70 minutes ou /qa injectait constamment des URLs de staging dans des fichiers de production. Comme pour tout workflow agentique, tu dois rester dans la boucle et interrompre quand les choses derapent.

Certaines commandes font doublon avec des setups existants. Si tu utilises deja Agent-Skills ou Superpowers, tu trouveras que /review et /ship font des choses similaires a des skills que tu as deja. Choisis l’un ou l’autre, ou sois delibere sur quel framework gere quelle phase.


La meta-lecon

La chose la plus interessante a propos de gstack n’est pas le code. C’est la these : le goulot d’etranglement dans le developpement assiste par IA n’est pas l’intelligence, c’est la structure. Claude Code est deja assez intelligent pour ecrire du bon code, trouver des bugs et suggerer des ameliorations. Ce qui lui manque - ce qui manque a tous les assistants de coding IA - c’est un framework pour decider quand reflechir a quoi.

La reponse de gstack, c’est la decomposition en roles. Avant de construire, pense comme un CEO. Avant de shipper, pense comme un QA lead. Avant de deployer, pense comme un responsable securite. L’IA n’a pas besoin d’etre plus intelligente. Elle a besoin de porter le bon chapeau au bon moment.

Que tu adoptes gstack, que tu construises ton propre systeme de roles, ou que tu internalises simplement le principe - le pattern vaut la peine d’etre appris. Les developpeurs qui shippent le meilleur code assiste par IA en 2026 ne sont pas ceux qui ont les modeles les plus puissants. Ce sont ceux qui ont les workflows les plus disciplines.


Ressources

claude-code gstack garry-tan skills agentic-ai workflow productivity y-combinator code-review qa

Articles liés