«Resultatene viser også effekten av å skalere test-time compute», skriver OpenAI i sitt eget GeneBench-Pro-paper. Setningen ser uskyldig ut, men tabellen den beskriver, publisert 30. juni og analysert av The Decoder, avslørte tre konfigurasjoner selskapet aldri har snakket om offentlig: GPT-5.6 Luna Pro, Terra Pro og Sol Pro, ifølge Tech Times.
GeneBench-Pro er en 129-oppgavers benchmark i genomikk og translasjonsmedisin, der hver oppgave anslås å ta en menneskelig ekspert 20 til 40 timer. Standard GPT-5.6 Sol løste 28,7 prosent av oppgavene; med «Pro mode enabled» steg treffraten til 31,5 prosent. Det er første gang et offisielt OpenAI-dokument lister mer enn én Pro-konfigurasjon per generasjon.
Det mest interessante er ikke hvem som vant, men hvordan gevinsten krymper oppover i stigen. Det er avtagende avkastning fra test-time compute i praksis: en svakere modell har flere uløste oppgaver å hente inn med mer tenketid enn en som allerede ligger høyt.
Ett tall stikker seg ut: Terra Pro treffer 28,5 prosent, nesten likt med standard Sol på 28,7. For oppgaver som krever utholdende analyse framfor dypest mulig resonnement, kan en Pro-aktivert Terra i praksis levere som en standard Sol, muligens til lavere kostnad. OpenAI oppga ikke token-forbruket for Pro-kjøringene, og skriver at «sammenlignbart token-regnskap var utilgjengelig».
For deg som planlegger rundt ChatGPT Pro, betyr det at abonnementet kan gå fra å bety «den ene beste modellen» til et valg mellom varianter innstilt på fart, volum og maksimal resonnering. Modellene er foreløpig bare tilgjengelige for rundt 20 myndighetsgodkjente organisasjoner via API og Codex, og OpenAI har ikke satt noen dato.