Utviklere følte seg 20 % raskere med KI, men var 19 % tregere

Utviklerne følte seg rundt 20 % raskere med KI. Stoppeklokka viste at de var rundt 19 % tregere. Selvrapporten og målingen pekte i motsatt retning, nesten 40 prosentpoeng fra hverandre. Det er funnet fra en randomisert kontrollert studie forskningsgruppa METR kjørte på 16 erfarne open source-utviklere over 246 oppgaver, med dagens frontier-verktøy, i kodebaser de kjente godt.

Studien er liten, og forfatterne er tydelige på at den ikke beviser at KI gjør alle tregere overalt. Effekten snur positiv for juniorer og for greenfield-prosjekter. Men i akkurat de forholdene der mest reelt arbeid skjer, altså erfarne folk i kode som allerede finnes, leser måleren baklengs. De som var mest sikre på at verktøyet gjorde dem raskere, var de det målbart bremset.

Team-telemetri peker samme vei i større skala. Faros AI, som så på over 10 000 utviklere, fant at antall pull requests som ble merget steg 98 %, PR-størrelsen over 150 % og review-tiden 91 %, uten netto endring i hva som ble levert. 31 % av alle PR-er ble merget uten review i det hele tatt. GitClear, som leste 200 millioner endrede kodelinjer, fant at kopiert kode og churn steg mens refaktorering falt til under 10 % av endringene.

«Generering ble billig. Verifisering ble dyrt», skriver forfatteren bak analysen. Vi fjernet den gamle flaskehalsen og sendte arbeidet rett inn i en ny: review. Volumet eksploderte på det ene steget ingen bemannet opp, og kostnaden lander nedstrøms, i hendelser, churn og utbrent reviewer, på en annen side enn fartsgrafen alle heier på.

Den ærlige innvendingen er at dette trolig er dumpen i en J-kurve, ikke endestasjonen. Nye verktøy koster før de betaler, og mye av gapet mellom følt og reell fart er kostnaden som dukker opp før gevinsten. For deg som leder et team er lærdommen likevel konkret: mål det som når produksjon og blir stående, ikke hvor raskt det føles.