Mishig Davaadorj publiserte 12. mai en sammenligning på Hugging Faces blogg som måler den smarteste åpne modellen du faktisk kan kjøre på «den dyreste MacBook-en på markedet» hver sjette måned mellom mai 2024 og mai 2026. Han bruker Artificial Analysis Intelligence Index v4.0 som rebaseres rett tilbake til samme skala for hele perioden.
Kurven er ikke jevn. Den hopper to ganger. I oktober 2025 brøt gpt-oss-120B 70B-dense-taket fordi sparse MoE med bare 5,1 milliarder aktive parametre per token ga 33 poeng der Llama 3.3 70B sto på 14. I april 2026 hoppet den igjen til 47, da DeepSeek V4 Flash kom med 284 milliarder totale parametre og en mixed-Q2-GGUF fra antirez på 80,8 GB. Samme uke kom Qwen3.6 27B Reasoning på 46 poeng i Q4 på bare 15 GB.
«Hvis lokal intelligens hadde fulgt Moores lov strengt, ville mai 2026 sett ut som en score på 20, omtrent Llama 3.3 70B-territorium. Istedenfor ser det ut som DeepSeek V4 Flash på 47.» — Mishig Davaadorj, Hugging Face
Maskinvaren har stått praktisk talt stille. Tre generasjoner Max-brikker (M3, M4, M5) har alle hatt 128 GB unified memory som tak. Bare minnebåndbredden flyttet seg, fra 400 til 614 GB/s. Det er omtrent 50 prosent på 24 måneder, og påvirker decode-hastighet, men ikke hvilke modeller som passer i minnet. Alle gevinstene kom fra modellsiden.
Tre ting forklarer hoppene: sparse Mixture of Experts som dekobler modellkapasitet fra compute per token, mixed-precision-kvantisering som standard (IQ2_XXS på routede eksperter, Q8 på attention og delte lag), og reasoning-trent små dense-modeller som Qwen3.6 27B som nesten matcher en 284B MoE på samme benchmark. Mishigs ekstrapolering gir en score på rundt 75 i mai 2027 hvis trenden holder, men 128 GB-taket blir den harde grensen om Apple ikke hever max-minne i M6 Max.
Hva bør du gjøre?
- Sammenlign egen lokal stack mot indeksen. Hvis du fortsatt kjører Llama 3.3 70B på en M3 Max, ligger du på 14 poeng. Bytt til Qwen3.6 27B Reasoning i Q4 og du står på 46 med 113 GB ledig RAM for kontekst.
- Vurder mixed-Q2-GGUF på sensitive lag. Antirez sin DeepSeek V4 Flash-bygg holder Q8 på attention og delte eksperter mens den presser IQ2_XXS på routede eksperter. Det er nå standardpraksis, ikke eksperiment.
- Mål kontekst-kostnad før produksjon. Mishig rapporterer at decode faller 30 til 50 prosent forbi 10K tokens på M4 og M5 Max, og KV-cache spiser RAM raskt. MoE-modellene blir marginale forbi 64K tokens.