Begge modellene ble lansert 16. april, og Willison kjørte dem samme morgen. Qwen3.6-35B-A3B er Alibabas nyeste, testet i Unsloths UD-Q4_K_S-kvantisering (20,9GB) via LM Studio på en MacBook Pro M5. Opus 4.7 er Anthropics ferskeste frontier-modell. Qwen vant først på pelikanen, så på flamingoen — Willisons hemmelige backup-test.
Det interessante er ikke at en lokal modell utkonkurrerte en proprietær frontier-modell på én oppgave. Det er at Willison selv er tvilende til hva det betyr:
«I have enormous respect for Qwen, but I very much doubt that a 21GB quantized version of their latest model is more powerful or useful than Anthropic's latest proprietary release.» — Simon Willison
Benchmarken hans — «tegn en pelikan som sykler» i SVG — har historisk korrelert med generell modellnytte. Tidlige pelikaner fra oktober 2024 var søppel. Gemini 3.1 Pros illustrasjoner kan faktisk brukes. Men Willison skriver at den koblingen nå er brutt: du kan ikke lenger lese pelikankvalitet som en proxy for hvor nyttig modellen er til alt annet.
For deg som kjører lokale modeller betyr dette to ting. Qwen3.6 er sterk nok til å være førstevalget for SVG-oppgaver lokalt — du trenger ikke en API-nøkkel for den delen. Samtidig er det en påminnelse om at syntetiske benchmarks slår sprekker idet modellene blir jevnt gode. Pelikanbenchmarken var alltid en spøk, men den var nyttig så lenge den korrelerte med noe annet. Det gjør den ikke lenger.
Hva bør du gjøre?
- Last ned Qwen3.6-35B-A3B-UD-Q4_K_S fra Unsloth hvis du allerede har LM Studio eller Ollama kjørende. Den passer i 24GB VRAM eller Apple Silicon med nok unified memory.
- Bygg dine egne benchmarks basert på reelle oppgaver du gjør. Syntetiske tester lyver når alle modeller blir gode.
- Ikke dropp Opus 4.7 på bakgrunn av én pelikan. Willison selv gjør det poenget — bruk frontier-modeller der du trenger dem, lokale modeller der latens og kostnad slår kvalitet.