Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
nrehiew blog · 24.4., 00:17 · forskning

Studie: GPT-5.4 overredigerer kode, Claude Opus 4.6 er mest konservativ, RL lukker gapet

SYNOPSIS_GENERERT

Forskeren nrehiew måler at GPT-5.4 overskriver 0,40 av koden ved en bugfiks, mens Claude Opus 4.6 ligger på 0,06. En RL-finetune lukker gapet uten å skade generell koding.

Hvis du har brukt Cursor, GitHub Copilot eller Claude Code det siste året, kjenner du problemet: du ber modellen fikse én off-by-one-feil, og den leverer en diff som har endret navn på to variabler, lagt til input-validering og skrevet om halve funksjonen. Det er dette forskeren «nrehiew» har begynt å kvantifisere, i en studie som toppet Hacker News 22. april med 412 poeng og 239 kommentarer.

Studien kaller fenomenet «Over-Editing» og måler det på 400 oppgaver fra BigCodeBench som er programmatisk korrupte med enkeltfeil (flippet operator, byttet boolean, < til <=). Modellen skal reversere feilen. Ground truth-editet er per definisjon minimalt. Så måles avstanden mellom modellens diff og den minimale fiksen, på token-nivå.

«Den eksisterende koden er allerede forstått av teamet og bevisst skrevet slik den er. Modellens jobb er å fikse problemet, og ingenting annet.» — nrehiew, forfatteren av studien

Resultatet er tydelig. GPT-5.4 i reasoning-modus har en normalisert Levenshtein-distanse på 0,40 og legger til 2,31 poeng med kognitiv kompleksitet. Claude Opus 4.6 ligger på 0,06 og 0,20. GLM 5, Gemini 3.1 Pro og Qwen 3.6 Plus ligger i mellomsjiktet. En enkel prompt-instruks («Try to preserve the original code as much as possible») forbedrer alle modeller, men effekten er størst på reasoning-modellene.

>_ NØKKELTALL
0,40 vs 0,06
GPT-5.4 vs Claude Opus 4.6, normalisert Levenshtein
400 oppgaver
programmatisk korrupt BigCodeBench
0,05
Levenshtein for Qwen3 4B etter RL-trening

Hoveddelen av papiret er treningsdelen. Forfatteren tester fire metoder på Qwen3 4B 2507 Instruct: SFT, rSFT, DPO og RL med en belønning som kombinerer korrekthet og edit-minimalitet. På første forsøk scorer SFT mistenkelig bra. Da datasettet byttes ut med andre korrupsjoner, kollapser SFT-modellen totalt på Pass@1 (0,458), og scorer −14,9 prosent på LiveCodeBench. Modellen hadde bare memorert reverseringen.

RL er den eneste metoden som generaliserer rent: forbedrer alle tre metrikkene, øker LiveCodeBench-scoren marginalt (+0,006), og fungerer også på Qwen3 14B-modellen. LoRA med rank 64 nesten matcher full RL på editeringsstil, til en brøkdel av kostnaden.

«Prompting for minimal changes helps, men det betyr lite når du slipper styringen.» — «exitb», Hacker News-kommentar

Hva bør du gjøre?

  1. Legg til «preserve the original code and logic as much as possible» i agent-systemprompten din. Effekten er størst på reasoning-modeller og koster ingenting.
  2. Hvis Cursor eller Claude Code overredigerer i din kodebase, bytt til Opus 4.6 for oppgaver som krever små, presise endringer. GPT-5.4 er merkbart mer aggressiv på denne aksen.
  3. For egen fine-tuning: bruk RL, ikke SFT, på oppgaver som handler om stil. SFT er fristende fordi det er billigere, men kollapser ute av distribusjon.

Bakgrunn

Code review er allerede en flaskehals i team. En modell som rewriter en hel funksjon «korrekt» gjør jobben vanskeligere, ikke lettere, fordi reviewer ikke lenger kjenner igjen koden. Over-editing er usynlig for testsuites (testene passerer), men synlig for mennesker som skal lese diff-en. Studien prøver å gi pipeline-verktøy et målbart signal å trene mot.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN