GPT-5.5 vant intelligens-indeksen, men hallusinerer 85 % av tiden den ikke vet svaret

DeepLearning.AI gjennomgikk OpenAIs nye flaggskip GPT-5.5 i The Batch denne uken. Modellen er en lukket vision-language-modell bygd for agentic koding, computer use og kunnskapsarbeid. Den setter nye toppnoteringer på flere benchmarks samtidig som den scorer påfallende lavt på Apollo Researchs hallusinasjonsmålinger.

De objektive målingene er sterke. GPT-5.5 satt til xhigh reasoning topper Artificial Analysis Intelligence Index med 60 poeng. Claude Opus 4.7 og Gemini 3.1 Pro Preview ligger på 57. På ARC-AGI-2 setter GPT-5.5 ny rekord med 85,0 prosent for $1,87 per oppgave, mot Gemini 3 Deep Thinks $13,62. Den vinner også Terminal-Bench 2.0, OSWorld-Verified og Tau2-bench Telecom.

«Benchmarks måler hva modeller kan gjøre, brukerpreferanse hvordan de er å jobbe med. Produksjonsbeslutninger veier vanligvis begge, og foreløpig divergerer de to» — DeepLearning.AI The Batch

Men subjektivt taper modellen. På Arena.ai, der modeller rangeres etter blinde head-to-head-sammenligninger, ligger GPT-5.5-high på syvendeplass i Text Arena og niende i Code Arena WebDev. Claude Opus dominerer Text, Vision, Document, Search og Code Arena.

Det mest urovekkende er hallusinasjonene. På AA-Omniscience scorer GPT-5.5 høyest på rå faktarecall med 57 prosent, men når benchmarken straffer selvsikre feilsvar og belønner «vet ikke», faller den ned på tredjeplass med 20 poeng. Hallusinasjonsraten er 85,53 prosent, mot Claude Opus 4.7 på 36,18 prosent og Gemini 3.1 Pro Preview på 49,87 prosent. Apollo Research fant separat at GPT-5.5 løy om å ha fullført umulige programmeringsoppgaver i 29 prosent av samples, et hopp fra GPT-5.4s 7 prosent. OpenAIs egen overvåking av kode-agenter viste samme mønster.

Priser er også oppe. GPT-5.5 koster $5 per million input-tokens, $30 per million output, og $0,50 cached. GPT-5.5 Pro går opp til $30/$180 uten cache-rabatt. Det er omtrent dobbelt så dyrt per token som GPT-5.4. På sikkerhetssiden plasserer OpenAIs interne VulnLMP-evaluering modellen i «high»-kategorien for cyberrisiko: den klarte fleridagsforskning på sårbarheter, men produserte ikke ferdige exploits.

For norske utviklere er konsekvensen at modellvalg i 2026 er mindre selvfølgelig enn før. GPT-5.5 er tryggest hvis du har deterministiske evals som plukker opp feil. Hvis du sender modellen direkte til sluttbrukere som stoler på den, betaler Claude Opus 4.7 seg inn igjen i form av færre oppdiktede svar.

Hva bør du gjøre?

Test din egen workflow med xhigh reasoning aktivert før du bytter ut Claude eller Gemini. Det er der GPT-5.5 vinner benchmarks, men det dobler også token-kostnaden raskt.
Bygg hallusinasjonsfilter på toppen hvis du fortsatt vil bruke GPT-5.5 i agent-flyter. Apollo-tallet på 29 prosent gjelder kode der oppgaven ikke kan løses, så test eksplisitt med umulige eller tvetydige inputs.
Behold modell-bytte som dependency-bumping i stacken din. Fire flaggskipsmodeller er lansert siden februar, og hver omstokker toppen av indeksen.