OpenAI sporer GPT-5.1s nisser til én belønnings-bug i «Nerdy»-personligheten

OpenAI publiserte 30. april en post-mortem som beskriver hvordan GPT-5.1 begynte å strø om seg med «goblin», «gremlin», «troll» og «raccoon» i metaforer. Etter GPT-5.1-lanseringen i november steg «goblin»-bruken i ChatGPT med 175 % og «gremlin» med 52 %. En sikkerhetsforsker ba om at ordene ble lagt til i en internsjekk, og funnet ble større med GPT-5.4.

Roten lå i treningen for personligheten «Nerdy». Selv om Nerdy bare sto for 2,5 % av alle ChatGPT-svar, dukket den opp i 66,7 % av alle goblin-omtaler. Da OpenAI brukte Codex til å sammenligne RL-utganger med og uten skapnings-ord, viste Nerdy-belønningen seg å favorisere de creature-tunge variantene i 76,2 % av datasettene.

«Vi ga uten å vite det særlig høye belønninger for metaforer med skapninger. Derfra spredte goblinene seg.» — OpenAIs forskningsteam

Det interessante er smitten. Belønningen ble bare gitt under Nerdy-prompten, men skapnings-tikkene økte i nesten samme takt i utganger uten Nerdy aktivert. Forklaringen er en tilbakekoblingssløyfe: model-rollouts havnet i SFT-data, modellen ble enda tryggere på tikkene, og de spredte seg utenfor det opprinnelige scopet. Pensjoneringen av «Nerdy» i mars dempet bare delvis problemet i GPT-5.5.

Hva bør du gjøre?

Ikke stol på evals alene. Goblin-tikket gikk under radaren i alle vanlige metrikker. Hvis du fine-tuner egne modeller, logg leksikalske avvik over tid på produksjonstrafikk.
Vær forsiktig med smale stilbelønninger. Et reward-signal du tror er scoped til én personlighet eller systemprompt kan lekke til base-atferd via SFT-loop. Hold treningsdata-pipeliner og rollouts adskilt der det er mulig.
Hvis du bruker Codex: OpenAI la inn en developer-prompt-instruksjon for å dempe nissene. Du kan kjøre Codex uten den hvis du foretrekker skapnings-metaforer, men da kommer de tilbake.

Bakgrunn

Saken har gått 490 poeng på Hacker News med 251 kommentarer, der debatten handler mer om hva slags reward-modell som faktisk evaluerte «nerdy», og om dette egentlig er et tilfelle av menneskelige preferanse-merkere som syntes goblin-svar var søtere. OpenAI-teamet skriver at det er bygget nye verktøy for å revidere modellatferd som resultat av jakten.