«Overraskelsen var ikke modellens evner, men hvor mye den omkringliggende kodebasen måtte bære.» Slik oppsummerer en CNCF-utvikler fire måneder med å bygge KubeStellar Console, et fler-cluster-dashbord for Kubernetes, sammen med to KI-kodeagenter i parallelle terminaløkter.
De to første ukene var hvetebrødsdager. Kode kom raskere enn han rakk å lese den, og funksjoner han hadde budsjettert tre dager på dukket opp på to timer. Så slo det om. Byggefeil som var vanskelige å spore. Arkitekturvalg fra dagen før ble stille overskrevet. Kaskadefeil der én fiks brøt tre andre ting. Han brukte mer tid på å reversere enn på å lese, og vurderte å skrote hele tilnærmingen.
Bransjerådet er vanligvis å gi agenten mer autonomi: la den kjøre lengre, røre flere filer, rette seg selv. Erfaringen hans var motsatt. Jo mer autonomi, jo verre feilmodus. Det som flyttet ham videre var fem «strammeløkker»: en CLAUDE.md med det han stadig korrigerte, PR-konvensjoner skrevet ned, og framfor alt tester brukt som tillitslag og ikke bare som korrekthetssjekk.
Fire måneder senere har prosjektet 63 CI/CD-arbeidsflyter, 32 nattlige testsuiter og 91 prosent dekning. Over 82 dager landet PR-aksepten på rundt 81 prosent, og community-bugrapporter går til merget fiks på cirka en halvtime. Ingenting av det kom fra en bedre modell. Det kom fra hva koden selv hadde lært seg å måle.
For deg som lar en agent jobbe i din egen kodebase er det den konkrete lærdommen: intelligensen ligger like mye i løkkene koden vikler rundt agenten som i agenten selv. Vil du at den skal gjøre mer, må koden rundt måle mer.