OpenAI: GPT-Realtime-2 får GPT-5-resonnering, kontekstvinduet 4-dobles til 128K

Lanseringen 7. mai endrer økonomien for stemme-agenter. GPT-Realtime-2 koster $32 per million input-tokens ($0,40 cached) og $64 per million output-tokens. Modellen kan nå kalle flere verktøy parallelt og melder selv fra med fraser som «checking your calendar» mens den jobber. Resonneringsnivået kan settes fra «minimal» til «xhigh», med «low» som standard.

I Zillows interne tester løftet GPT-Realtime-2 «call success rate» fra 69 til 95 prosent på det de kaller sin vanskeligste motstandsbenchmark, en forbedring på 26 prosentpoeng. Det skjer etter prompt-optimalisering, så tallet er ikke en out-of-the-box-måling. Modellen scorer også 15,2 prosent høyere på Big Bench Audio enn forgjengeren GPT-Realtime-1.5.

«Kombinasjonen av agent-kompetanse og guardrail-styrke gjør den brukbar for produksjons-stemme hos Zillow.» — Josh Weisberg, SVP og leder for KI hos Zillow

GPT-Realtime-Translate håndterer 70+ inn-språk og 13 ut-språk. BolnaAI rapporterer 12,5 prosent lavere Word Error Rate på Hindi, Tamil og Telugu enn alternativene de testet. Translate koster $0,034 per minutt, Whisper-streaming $0,017 per minutt. Sistnevnte er en helt ny modell, ikke samme som Whisper Large v3 Turbo, og er bygget for at transkribering skal komme samtidig med talen.

Hva bør du gjøre?

Test reasoning-effort først: «low» er default og holder for de fleste turn-taking-cases. Bytt til «high» eller «xhigh» bare når brukeren sier ting modellen må bryte ned i flere steg.
Bruk preambles aktivt: Korte fraser som «one moment while I look into it» reduserer opplevd latens når modellen kaller verktøy. Dette er en konfig, ikke noe du må prompte fram hver gang.
Vurder kost-balansen for translate: $0,034 per minutt er omtrent halvparten av hva tilsvarende oversettelses-API-er har kostet, men 13 ut-språk er en hard begrensning. Norsk er ikke på listen i kildedokumentet.