Claude Code /goals: Anthropic splitter agenten i utfører og evaluator

En kode-migrasjons-agent fullfører løpet sitt, pipelinen ser grønn ut, men flere filer er aldri kompilert, og det tar dager å fange opp. Det er ikke en modellfeil; det er en agent som bestemmer seg for at den er ferdig før den faktisk er det. Anthropic kaller det «premature task exit», og /goals er svaret.

Mekanikken er enkel. Du definerer et mål, for eksempel «alle tester i test/auth passerer og lint er ren». Claude kjører turn-for-turn som vanlig. Hver gang agenten forsøker å avslutte, kjører evaluator-modellen sjekken mot sluttilstanden. Hvis betingelsen er nådd, logges resultatet til transkripten og målet ryddes. Hvis ikke, fortsetter agenten. Haiku er nok som dommer fordi valget er binært.

Konkurrentene løste samme problem ulikt. OpenAI lar modellen avgjøre selv og tilbyr eksterne evaluator-hooks. LangChain og Google ADK lar deg bygge kritikker-noder, men du må selv skrive termineringslogikken og observabiliteten. Anthropics valg er å gjøre evaluatoren default og kreve at du formulerer sluttbetingelsen som prompt.

Brownell hos Sprinklr legger til at /goals fungerer best for deterministisk arbeid med verifiserbar sluttilstand: migrasjoner, lint-rydding, test-passering. Nyanserte oppgaver som krever skjønn trenger fortsatt et menneske i løkken. Han peker også på timingen: Anthropic er ikke først ute, men «to av verdens største KI-labber leverte samme kommando med dagers mellomrom og helt ulike konklusjoner om hvem som får erklære oppgaven ferdig».

Hva bør du gjøre?

Definer mål som maskinen kan sjekke. Anthropics dokumentasjon anbefaler én målbar sluttilstand (exit-kode, fil-telling, tom kø), én eksplisitt verifisering («npm test exits 0») og begrensninger som ikke skal endres underveis.
Bruk /goals til kjedelig vedlikeholdsarbeid først. Rydde varslinger, oppgradere avhengigheter, rette importer. Saker hvor «ferdig» entydig betyr «exit 0».
Ikke utvid til design-arbeid uten menneske i løkken. Brownells poeng står: nyanserte oppgaver trenger menneskelig dom, ikke en Haiku-sjekk.