Åpne modeller under 32B parametre matcher nå GPT-5-nivå ytelse

«Qwen3.5 27B substantially outperforms GPT-5 (medium) on the Agentic Index» — Artificial Analysis

Analysen, publisert 14. april av Artificial Analysis, viser at Alibabas Qwen3.5 27B (Reasoning) scorer 42 på Intelligence Index — identisk med GPT-5 (medium). Googles Gemma 4 31B (Reasoning) følger på 39, tilsvarende GPT-5 (low). Begge er åpne modeller som kan lastes ned og kjøres lokalt.

Styrkeforholdet er imidlertid ulikt. De åpne modellene leder på agentoppgaver og kritisk resonnering: Qwen3.5 27B scorer 55 mot GPT-5 sine 46 på Agentic Index. Men på faktagjenkalling (AA-Omniscience) scorer de åpne modellene -42 og -45, mot GPT-5 sine -10. Færre parametre betyr mindre lagret kunnskap, og resonnering alene kompenserer ikke.

Begge modellene kjører på én NVIDIA H100 (80 GB) i BF16-presisjon, og med kvantisering på en MacBook. For utviklere som vurderer selvhostet KI betyr det at ytelsesargumentet for proprietære APIer svekkes på resonnering og koding, men du bør fortsatt bruke store modeller for oppgaver som krever bred faktuell kunnskap.

>_ NØKKELTALL

Qwen3.5 27B sin Intelligence Index-score, likt GPT-5 (medium)

2,5×

tokenforskjell mellom Qwen3.5 27B og Gemma 4 31B for tilsvarende kvalitet

-42 vs. -10

Omniscience-score for Qwen3.5 27B vs. GPT-5 (medium)