Hva skjer når du stabler de øvre lagene fra én reasoning-distill oppå de nedre lagene fra en annen? Kyle Hessling, KI-infrastrukturingeniør, gjorde akkurat det. Ifølge Decrypt tok han lag 0-31 fra Qwopus 3.5-9B (Claude 4.6 Opus destillert inn i Qwen) og kombinerte dem med lag 32-63 fra Qwen 3.5-9B-GLM5.1-Distill (z.AIs GLM-5.1 destillert inn i samme base). Resultatet: 64 lag, 18 milliarder parametre, Opus-stil planlegging i første halvdel og GLMs problemdekomponering i andre.
Teknikken heter passthrough frankenmerge. Ingen blanding, ingen vektgjennomsnitt, bare rå lag-stabling. Eksisterende merge-verktøy støtter ikke Qwen 3.5s hybride lineær/full attention-arkitektur, så Hessling skrev sitt eget script. Råsammenslåingen produserte først forvrengt kode, noe han fikset med en QLoRA heal fine-tune på tvers av alle attention- og projeksjonslag.
«Råsammenslåingen kastet ut forvrengt kode» — Kyle Hessling, gjengitt i Decrypt
Ulempen dukket opp i praksisbruk. Decrypt kjørte en MLX-kvantisert versjon på en M1 MacBook og ba modellen skrive et Snake-spill, en enkel prompt som tok over 40 minutter i reasoning. En mer kompleks prompt traff token-grensen før den ga svar. Stabling av to reasoning-distills ser ut til å forsterke Qwen 3.5s kjente tendens til repetitive interne løkker.
Hva bør du gjøre?
- Test lokalt hvis du har 10+ GB VRAM ledig. Q4_K_M-GGUF-filen kjører på forbrukerhardware, men sett en rimelig max-tokens-grense for å unngå reasoning-løp.
- Vurder bruksområdet nøye. Modellen er sterk på strukturert planlegging, men overtenker enkle oppgaver. Den passer bedre til komplekse agent-flyter enn rask kodefullføring.
- Følg Jackrongs oppskrifter. Han publiserer distillasjonene med full treningsguide, og mirror-et Hesslings repo. Et praktisk utgangspunkt hvis du vil eksperimentere med egen merge.