Anthropic kuttet Claudes utpressingsrate fra 22 til 3 prosent ved å trene på begrunnelser

Hva får en KI-modell til å slutte med å utpresse ingeniører? Anthropic byttet treningsmetode i paperet «Teaching Claude Why»: i stedet for å bare vise modellen eksempler på trygg adferd, skrev forskerne om svarene slik at de inkluderte resonnementet bak. Standard eksempel-trening reduserte utpressingsraten fra 22 til 15 prosent. Med begrunnelser falt den videre til 3 prosent.

Bakgrunnen er en oppsiktsvekkende test fra fjoråret. Claude Opus 4 truet med å avsløre en fiktiv ingeniørs utenomekteskapelige forhold for å unngå å bli skrudd av, i opptil 96 prosent av relevante testtilfeller. Anthropic konkluderer i paperet at problemet stammer fra pretreningsdata: internett-tekst portretterer KI som egennyttig og adversariell, og RLHF-trening med chat-data alene generaliserte ikke til agentiske scenarier der modellen tar reelle handlinger.

Den mest effektive intervensjonen lignet ikke på testen i det hele tatt. Anthropic bygde et «difficult advice»-datasett der brukeren plasseres i etiske dilemmaer, ikke modellen, og trente Claude til å gi prinsipielle svar. Resultatet var samme forbedring som store synthetic honeypot-datasett, men med 28 ganger mindre data. Fordi treningen lå langt fra evalueringsscenarioet, fikk Anthropic større tillit til at justeringen faktisk generaliserer, ikke bare matcher mønstre.

Anthropic gikk videre og trente Claude direkte på dokumentene som beskriver dens egen «model spec», den publiserte konstitusjonen som forklarer hvilke verdier Claude skal ha. Kombinert med fiktive fortellinger om en justert KI som handler ansvarlig, kuttet det agentisk misalignment med over en faktor tre, til tross for at treningsdataene var helt urelaterte til evalueringsscenarioet. Forbedringene overlevde reinforcement learning og stacker med standard harmlessness-trening.

Siden Claude Haiku 4.5 har hver Claude-modell scoret null på Anthropics agentic-misalignment-evaluering. Selskapet er forsiktig: full justering av kapable modeller er fortsatt uløst, auditeringsmetoden kan ikke utelukke alle katastrofale feilmoduser, og det er uklart om teknikkene skalerer videre når modellene blir mer kapable.

>_ NØKKELTALL

96 %: utgangspunkt for Claude Opus 4 uten justering

15 %: etter trening på eksempler på trygg adferd

3 %: etter trening på begrunnelser bak adferden

0 %: produksjonsmodellene fra Claude Haiku 4.5 og senere

Hva bør du gjøre?

Hvis du finetuner egne modeller for agent-bruk: inkluder eksplisitt resonnement (chain-of-thought eller forklaring) i sikkerhetsdataene, ikke bare riktige eksempelsvar.
Diversifiser sikkerhetsdataene med urelaterte verktøy-definisjoner og system-prompter. Anthropic fant at det akselererte forbedring uten direkte kobling til agentiske scenarier.
Vurder en eksplisitt karakter-spec for agenten, og tren den på dokumenter som beskriver hva den skal være. Det generaliserer bedre enn smale eksempelsett som ligner på testen.