Forskere bak DELEGATE-52, en ny benchmark publisert på arXiv 17. april 2026, kjørte 19 språkmodeller gjennom simulerte lange arbeidsflyter på tvers av 52 yrkesdomener fra koding og krystallografi til notesats. Selv frontier-modellene Gemini 3.1 Pro, Claude 4.6 Opus og GPT-5.4 endte med å korrumpere i snitt 25 prosent av dokumentinnholdet ved slutten av lange interaksjoner. Mindre modeller fikk vesentlig dårligere resultater.
Feilene er det forskerne kaller «sparse but severe»: ikke konstant overforenkling, men plutselige innslag av faktafeil eller fjernet nyanse som hoper seg opp utover lengre samtaler. Det gjør problemet vanskelig å spotte underveis. En agent som leverer et OK avsnitt nittini ganger på rad og introduserer en silent feil i nummer hundre, ser ut som en pålitelig delegate helt til du sammenligner med originalen.
«Nåværende LLM-er er upålitelige delegater: de introduserer sparsomme men alvorlige feil som stille korrumperer dokumenter, og effekten kompoundes over lange interaksjoner.» (DELEGATE-52, arXiv 2604.15597)
De tre faktorene som forsterker degraderingen er dokumentstørrelse, lengde på interaksjon, og tilstedeværelsen av distraktor-filer i konteksten. Med andre ord: jo mer realistisk arbeidsflyten er, jo verre presterer modellen. Forskerne testet også agentic verktøybruk og fant ingen forbedring. Det er det interessante funnet for utviklere som bygger agent-systemer rundt skrivearbeid: «gi agenten flere tools» løser ikke problemet.
For norske utviklere som bygger vibe-coding-løsninger, redaksjonelle agenter eller dokumentassistenter er konsekvensen at du må bygge inn diff-basert validering uansett hvor god modellen er. Du kan ikke lite på at en agent ikke har endret det den ikke ble bedt om å endre.
Hva bør du gjøre?
- Bygg inn automatisk diff-validering i agent-arbeidsflyter som redigerer eksisterende dokumenter. Sammenlign output mot input på alle deler agenten ikke eksplisitt skulle endre.
- Hold delegerte sesjoner korte. Studien viser at degradering hoper seg opp over tid; restart agent-kontekst etter avgrensede oppgaver heller enn å la den jobbe i timevis.
- Test din egen domene-spesifikke korrumperingsrate. DELEGATE-52 dekker 52 domener, men din pipeline er kanskje hardere eller enklere. Kjør ti før-og-etter-sammenligninger med en evaluering-modell på siden før du lar agenten røre produksjonsdata.