Grok 4.3: 53 på Intelligence Index, 58 % billigere output enn Grok 4.20

xAI annonserte Grok 4.3 30. april og treffer en av de skarpeste pris-mot-intelligens-posisjonene i markedet akkurat nå. På Artificial Analysis sitt aggregerte indeks ligger den 4 poeng foran Grok 4.20 og over Muse Spark, mens den fortsatt blir slått av OpenAIs GPT-5.5 og DeepSeek V4 Pro. Å kjøre hele benchmark-suiten koster Grok 4.3 omtrent 395 dollar i tokens, rundt 20 % mindre enn Grok 4.20 0309 v2.

Det største enkeltløftet er på agent-benchmarken GDPval-AA, der Grok 4.3 scorer 1500 ELO. Det er 321 poeng over Grok 4.20 og forbi Gemini 3.1 Pro Preview, Muse Spark og GPT-5.4 mini. Modellen trekker også opp τ²-Bench Telecom med 5 poeng til 98 %, på linje med GLM-5.1. Forskjellen er ikke jevn: Grok 4.3 vinner 8 poeng på AA-Omniscience Accuracy, men taper tilsvarende på Non-Hallucination Rate. Bygger du noe der falske svar koster mer enn manglende svar, er Grok 4.20 fortsatt det tryggere valget.

For norske team som lager agenter er kombinasjonen av høy GDPval-AA-score og lavere pris den interessante delen. På et call-flow eller en kundeservice-agent som kjører tusenvis av turer per dag, betyr 58 % lavere output-pris en helt annen driftsøkonomi enn Sonnet 4.6 eller Gemini 3.1 Pro.

Hva bør du gjøre?

Sammenlign på din egen workload: Aggregert score er nyttig som siling, men kjør Grok 4.3 mot Sonnet 4.6 eller GPT-5.4 mini på dine egne prompts før du bytter modell.
Sjekk hallusineringsraten: Hvis du bruker modellen til faktatung kontekst (RAG, kundedata), test Non-Hallucination Rate eksplisitt. Grok 4.20 leder fortsatt på det målet.
Følg cost-per-task, ikke per-token: Grok 4.3 bruker ~44 % flere output-tokens enn Grok 4.20 på samme benchmark. Den er fortsatt billigere totalt, men forskjellen er mindre enn lista-prisen antyder.