Testet en lokal LLM mot en frontier-sky-modell: gapet var mindre enn ventet

En XDA-skribent satte Qwen 3.6 27B på en hjemmeserver (llama.cpp med SearXNG for søk) opp mot GPT-5.5, med samme prompts og verktøy, gjennom fem sett bevisst vanskelige spørsmål. På testen med 90 000 tokens kontekst fra et privat kodelager ingen av modellene kunne ha sett i treningen, ga den lokale modellen det klart beste svaret.

Tre mønstre gikk igjen: 1. På lang kontekst holdt Qwen de 90 000 tokenene sammen og pekte på en relasjon den ikke ble spurt om, mens GPT-5.5 ignorerte den innlimte loggen og kjørte grep mot skribentens faktiske filsystem, som var tomt. 2. Begge landet på samme budsjett-GPU (brukt RTX 3060 12 GB) i research-testen, men Qwen sorterte svaret i pris-tiere mens GPT-5.5 tok «billigst» bokstavelig og la til uønskede ekstra-lister. 3. På en bevisst hallusinasjons-felle fant ingen av modellene på et falskt kvant-format, men bare Qwen sporet opp hvor forvirringen kunne ha oppstått.

Dette er ikke en historie om at lokale modeller slår skyen. På nisjepregede spørsmål, der du må kjenne feltet godt nok til å vite at du bør slå noe opp, gir GPT-5.5s bredere kunnskap fortsatt skarpere instinkt. Qwen bommet også på GPU-priser og overdrev hvilke modellstørrelser som får plass i et gitt VRAM-budsjett.

Poenget er terskelen: for det folk faktisk bruker disse modellene til, er gapet ikke lenger så stort som det var. For deg som vurderer å kjøre koding og research lokalt på konsumentmaskinvare, er det den terskelen som har flyttet seg, ikke at skyen har blitt dårligere.