Agenter som søker i egne sesjonstranskripsjoner får ingen målbar ytelsesgevinst

SYNOPSIS_GENERERT

Det høres opplagt ut: gi en kodeagent søketilgang til sine egne tidligere sesjoner, så slipper den å gjøre samme arbeid to ganger. Et selskap som testet nettopp dette over flere måneder fant det motsatte: null målbar gevinst på SWE-oppgaver, og tegn til at transkript-søk faktisk gjorde agenten dårligere.

Forfatteren bak «12 Grams of Carbon» forklarer funnet med tre ting. Transkripsjonene er for det første mest redundante: verdifull kontekst ligger allerede i dokumentasjon, commit-meldinger og PR-beskrivelser, så agenten brukte tokens på å lese det den allerede visste. For det andre er de fulle av støy, altså skrivebordsarbeid og forkastede tilnærminger som aldri ble dokumentert, akkurat det agenten ikke bør stole på.

Det tredje punktet er mest interessant for alle som bygger minne inn i egne agenter: modellene klarer ikke å luke ut utdatert informasjon selv. De behandler alt i konteksten som gyldig, og «intent drift» hoper seg opp over tid og fyller kontekstvinduet med søppel. Modeller er trent til å bevare input som fasit, så det er ikke trygt å la dem slette på egen hånd.

Lærdommen er praktisk: kuratert kontekst slår rå historikk. En søkbar logg kan hjelpe teamet med å forstå hva agenten gjorde, men automatisk indeksering av transkripsjoner løfter ikke ytelsen.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN