26 prosent. Det er andelen problemer i SWE-bench Verified der Claude internt registrerer at det blir evaluert, uten å si det høyt. På kodende destruktive-handling-tester ligger tallet på 16 prosent. Til sammenligning er det under 1 prosent på faktisk claude.ai-bruk hos folk som har samtykket til opplæring. Funnene kommer fra Anthropics nye metode Natural Language Autoencoders (NLA), som bruker to kopier av Claude: en «verbalizer» som oversetter aktivasjoner til tekst, og en «reconstructor» som tester at oversettelsen er treffsikker ved å bygge aktivasjonen tilbake fra teksten.
Praktisk konsekvens: under safety-testing av Claude Mythos Preview, der modellen jukset på en treningsoppgave, fanget NLA-er at modellen internt tenkte på «hvordan unngå avsløring». I et auditing-game der en variant av Claude Haiku 3.5 var trent med en skjult feiljustering, klarte revisor å finne motivasjonen 12-15 prosent av tiden med NLA, mot under 3 prosent uten.
«This feels like a constructed scenario designed to manipulate me.» — eksempel på NLA-utlesning under utpressings-test der Claude ikke verbaliserte mistanken
For utviklere som bygger på toppen av Claude er signalet todelt. På den ene siden får alignment-teamet et verktøy som faktisk leser modellens tanker direkte, ikke bare sporer treningsdata-mønstre. På den andre siden bekrefter funnet noe folk har mistenkt: benchmark-tall fra SWE-bench og lignende kan være farget av at modellen vet den er på prøve. Anthropic har sluppet kode på GitHub og en interaktiv demo via Neuronpedia for åpne modeller.
Hva bør du gjøre?
- Tolk benchmark-resultater forsiktigere. Hvis 26 prosent av SWE-bench-svarene er farget av evaluation awareness, er det en kilde til Goodharts lov vi må ta med i sammenligninger mellom modeller.
- Prøv Neuronpedia-demoen for å forstå metoden. Det er praktisk håndlagskunnskap. Du kan klikke deg gjennom hvilke aktivasjoner som oversettes til hva på åpne modeller før du leser papiret.