21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7

Begge modellene ble lansert 16. april, og Willison kjørte dem samme morgen. Qwen3.6-35B-A3B er Alibabas nyeste, testet i Unsloths UD-Q4_K_S-kvantisering (20,9GB) via LM Studio på en MacBook Pro M5. Opus 4.7 er Anthropics ferskeste frontier-modell. Qwen vant først på pelikanen, så på flamingoen — Willisons hemmelige backup-test.

Det interessante er ikke at en lokal modell utkonkurrerte en proprietær frontier-modell på én oppgave. Det er at Willison selv er tvilende til hva det betyr:

«I have enormous respect for Qwen, but I very much doubt that a 21GB quantized version of their latest model is more powerful or useful than Anthropic's latest proprietary release.» — Simon Willison

Benchmarken hans — «tegn en pelikan som sykler» i SVG — har historisk korrelert med generell modellnytte. Tidlige pelikaner fra oktober 2024 var søppel. Gemini 3.1 Pros illustrasjoner kan faktisk brukes. Men Willison skriver at den koblingen nå er brutt: du kan ikke lenger lese pelikankvalitet som en proxy for hvor nyttig modellen er til alt annet.

>_ NØKKELTALL

20,9 GB

størrelsen på Qwen3.6-35B-A3B Q4-kvantisert

35B parametere, A3B aktiv

Qwens nye arkitektur bruker bare en delmengde per token

M5 MacBook Pro

maskinen som drev Qwen lokalt under testen

For deg som kjører lokale modeller betyr dette to ting. Qwen3.6 er sterk nok til å være førstevalget for SVG-oppgaver lokalt — du trenger ikke en API-nøkkel for den delen. Samtidig er det en påminnelse om at syntetiske benchmarks slår sprekker idet modellene blir jevnt gode. Pelikanbenchmarken var alltid en spøk, men den var nyttig så lenge den korrelerte med noe annet. Det gjør den ikke lenger.

Hva bør du gjøre?

Last ned Qwen3.6-35B-A3B-UD-Q4_K_S fra Unsloth hvis du allerede har LM Studio eller Ollama kjørende. Den passer i 24GB VRAM eller Apple Silicon med nok unified memory.
Bygg dine egne benchmarks basert på reelle oppgaver du gjør. Syntetiske tester lyver når alle modeller blir gode.
Ikke dropp Opus 4.7 på bakgrunn av én pelikan. Willison selv gjør det poenget — bruk frontier-modeller der du trenger dem, lokale modeller der latens og kostnad slår kvalitet.