Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
arXiv · 10.5., 00:33 · forskning

Ny arXiv-studie: Frontier-modeller korrumperer 25 prosent av dokumentinnhold når de delegeres skriveoppgaver

SYNOPSIS_GENERERT

DELEGATE-52, en ny arXiv-studie, viser at Gemini 3.1 Pro, Claude 4.6 Opus og GPT-5.4 i snitt korrumperer 25 prosent av dokumentinnholdet i lange delegerte arbeidsflyter. Feilene er sparsomme men alvorlige, og verktøybruk gjør det ikke bedre.

Forskere bak DELEGATE-52, en ny benchmark publisert på arXiv 17. april 2026, kjørte 19 språkmodeller gjennom simulerte lange arbeidsflyter på tvers av 52 yrkesdomener fra koding og krystallografi til notesats. Selv frontier-modellene Gemini 3.1 Pro, Claude 4.6 Opus og GPT-5.4 endte med å korrumpere i snitt 25 prosent av dokumentinnholdet ved slutten av lange interaksjoner. Mindre modeller fikk vesentlig dårligere resultater.

Feilene er det forskerne kaller «sparse but severe»: ikke konstant overforenkling, men plutselige innslag av faktafeil eller fjernet nyanse som hoper seg opp utover lengre samtaler. Det gjør problemet vanskelig å spotte underveis. En agent som leverer et OK avsnitt nittini ganger på rad og introduserer en silent feil i nummer hundre, ser ut som en pålitelig delegate helt til du sammenligner med originalen.

«Nåværende LLM-er er upålitelige delegater: de introduserer sparsomme men alvorlige feil som stille korrumperer dokumenter, og effekten kompoundes over lange interaksjoner.» (DELEGATE-52, arXiv 2604.15597)

De tre faktorene som forsterker degraderingen er dokumentstørrelse, lengde på interaksjon, og tilstedeværelsen av distraktor-filer i konteksten. Med andre ord: jo mer realistisk arbeidsflyten er, jo verre presterer modellen. Forskerne testet også agentic verktøybruk og fant ingen forbedring. Det er det interessante funnet for utviklere som bygger agent-systemer rundt skrivearbeid: «gi agenten flere tools» løser ikke problemet.

For norske utviklere som bygger vibe-coding-løsninger, redaksjonelle agenter eller dokumentassistenter er konsekvensen at du må bygge inn diff-basert validering uansett hvor god modellen er. Du kan ikke lite på at en agent ikke har endret det den ikke ble bedt om å endre.

Hva bør du gjøre?

  1. Bygg inn automatisk diff-validering i agent-arbeidsflyter som redigerer eksisterende dokumenter. Sammenlign output mot input på alle deler agenten ikke eksplisitt skulle endre.
  2. Hold delegerte sesjoner korte. Studien viser at degradering hoper seg opp over tid; restart agent-kontekst etter avgrensede oppgaver heller enn å la den jobbe i timevis.
  3. Test din egen domene-spesifikke korrumperingsrate. DELEGATE-52 dekker 52 domener, men din pipeline er kanskje hardere eller enklere. Kjør ti før-og-etter-sammenligninger med en evaluering-modell på siden før du lar agenten røre produksjonsdata.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN