Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Decrypt · 22.4., 04:11 · modell

«Frankenstein»-modell stabler Claude Opus, GLM og Qwen: slår 35B på 9,2 GB VRAM

SYNOPSIS_GENERERT

Kyle Hessling stablet lag fra tre destillerte modeller til en 18B hybrid som slår Alibabas 35B på 40 av 44 tester og kjører på en RTX 3060 med 9,2 GB VRAM.

Hva skjer når du stabler de øvre lagene fra én reasoning-distill oppå de nedre lagene fra en annen? Kyle Hessling, KI-infrastrukturingeniør, gjorde akkurat det. Ifølge Decrypt tok han lag 0-31 fra Qwopus 3.5-9B (Claude 4.6 Opus destillert inn i Qwen) og kombinerte dem med lag 32-63 fra Qwen 3.5-9B-GLM5.1-Distill (z.AIs GLM-5.1 destillert inn i samme base). Resultatet: 64 lag, 18 milliarder parametre, Opus-stil planlegging i første halvdel og GLMs problemdekomponering i andre.

Teknikken heter passthrough frankenmerge. Ingen blanding, ingen vektgjennomsnitt, bare rå lag-stabling. Eksisterende merge-verktøy støtter ikke Qwen 3.5s hybride lineær/full attention-arkitektur, så Hessling skrev sitt eget script. Råsammenslåingen produserte først forvrengt kode, noe han fikset med en QLoRA heal fine-tune på tvers av alle attention- og projeksjonslag.

«Råsammenslåingen kastet ut forvrengt kode» — Kyle Hessling, gjengitt i Decrypt

>_ NØKKELTALL
18 mrd parametre totalt, 64 lag stablet fra to 32-lags modeller
9,2 GB VRAM i Q4_K_M-kvantisering, kjører på en RTX 3060
40 av 44 kapasitetstester bestått, slår Alibabas 35B MoE som krever 22 GB VRAM
3 000+ nedlastinger på to uker

Ulempen dukket opp i praksisbruk. Decrypt kjørte en MLX-kvantisert versjon på en M1 MacBook og ba modellen skrive et Snake-spill, en enkel prompt som tok over 40 minutter i reasoning. En mer kompleks prompt traff token-grensen før den ga svar. Stabling av to reasoning-distills ser ut til å forsterke Qwen 3.5s kjente tendens til repetitive interne løkker.

Hva bør du gjøre?

  1. Test lokalt hvis du har 10+ GB VRAM ledig. Q4_K_M-GGUF-filen kjører på forbrukerhardware, men sett en rimelig max-tokens-grense for å unngå reasoning-løp.
  2. Vurder bruksområdet nøye. Modellen er sterk på strukturert planlegging, men overtenker enkle oppgaver. Den passer bedre til komplekse agent-flyter enn rask kodefullføring.
  3. Følg Jackrongs oppskrifter. Han publiserer distillasjonene med full treningsguide, og mirror-et Hesslings repo. Et praktisk utgangspunkt hvis du vil eksperimentere med egen merge.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN