«Frankenstein»-modell stabler Claude Opus, GLM og Qwen: slår 35B på 9,2 GB VRAM

Hva skjer når du stabler de øvre lagene fra én reasoning-distill oppå de nedre lagene fra en annen? Kyle Hessling, KI-infrastrukturingeniør, gjorde akkurat det. Ifølge Decrypt tok han lag 0-31 fra Qwopus 3.5-9B (Claude 4.6 Opus destillert inn i Qwen) og kombinerte dem med lag 32-63 fra Qwen 3.5-9B-GLM5.1-Distill (z.AIs GLM-5.1 destillert inn i samme base). Resultatet: 64 lag, 18 milliarder parametre, Opus-stil planlegging i første halvdel og GLMs problemdekomponering i andre.

Teknikken heter passthrough frankenmerge. Ingen blanding, ingen vektgjennomsnitt, bare rå lag-stabling. Eksisterende merge-verktøy støtter ikke Qwen 3.5s hybride lineær/full attention-arkitektur, så Hessling skrev sitt eget script. Råsammenslåingen produserte først forvrengt kode, noe han fikset med en QLoRA heal fine-tune på tvers av alle attention- og projeksjonslag.

«Råsammenslåingen kastet ut forvrengt kode» — Kyle Hessling, gjengitt i Decrypt

>_ NØKKELTALL

18 mrd parametre totalt, 64 lag stablet fra to 32-lags modeller

9,2 GB VRAM i Q4_K_M-kvantisering, kjører på en RTX 3060

40 av 44 kapasitetstester bestått, slår Alibabas 35B MoE som krever 22 GB VRAM

3 000+ nedlastinger på to uker

Ulempen dukket opp i praksisbruk. Decrypt kjørte en MLX-kvantisert versjon på en M1 MacBook og ba modellen skrive et Snake-spill, en enkel prompt som tok over 40 minutter i reasoning. En mer kompleks prompt traff token-grensen før den ga svar. Stabling av to reasoning-distills ser ut til å forsterke Qwen 3.5s kjente tendens til repetitive interne løkker.

Hva bør du gjøre?

Test lokalt hvis du har 10+ GB VRAM ledig. Q4_K_M-GGUF-filen kjører på forbrukerhardware, men sett en rimelig max-tokens-grense for å unngå reasoning-løp.
Vurder bruksområdet nøye. Modellen er sterk på strukturert planlegging, men overtenker enkle oppgaver. Den passer bedre til komplekse agent-flyter enn rask kodefullføring.
Følg Jackrongs oppskrifter. Han publiserer distillasjonene med full treningsguide, og mirror-et Hesslings repo. Et praktisk utgangspunkt hvis du vil eksperimentere med egen merge.