Nyere Claude-modeller bommer oftere på egendefinerte edit-verktøy

Armin Ronacher fant at Opus 4.8 og Sonnet 5 finner opp ekstra felt i edits[]-arrayet når de bruker edit-verktøyet i kode-rammeverket Pi. I de feilende kallene dukker det opp nøkler som «requireUnique», «oldText2» og «newText2» som ikke finnes i skjemaet, og Pi avviser kallet. Selve endringen er som regel korrekt, men argumentene stemmer ikke, og de eldre modellene gjorde ikke dette.

«De sterkeste modellene i familien er dårligere på akkurat dette verktøy-skjemaet enn sine eldre søsken.» — Armin Ronacher

Armins teori er at Anthropic har trent de nyere modellene, trolig med reinforcement learning, til å bli flinkere på edit-verktøyene som ligger innebygd i Claude Code. Bivirkningen er at modellene blir overtilpasset akkurat de verktøyene, og svakere på skjemaer de ikke har sett like mye under trening. Claudes edit-verktøy bruker søk-og-erstatt. OpenAIs Codex bruker apply_patch, og OpenAI har tidligere fortalt at modellene deres trenes spesifikt på den mekanismen.

Bygger du ditt eget agentrammeverk med egne verktøy-skjemaer, kan en nyere «bedre» modell altså gi deg flere feilende verktøykall enn en eldre. Simon Willison lar spørsmålet stå åpent: bør tredjeparts rammeverk som Pi implementere flere edit-verktøy og velge det som passer best til modellen brukeren kjører? Ett alternativ er grammatikk-styrt dekoding, som kan hindre modellen i å emittere ugyldige nøkler i utgangspunktet.