Sakana og NVIDIA gjør LLM-inferens 20,5 prosent raskere med TwELL: ren CUDA, ingen arkitekturendring

20,5 prosent raskere inferens. 21,9 prosent raskere trening. 17 prosent lavere energiforbruk per token. Det er resultatene fra MarkTechPosts gjennomgang av TwELL, publisert av Sakana AI og NVIDIA. Målingene er fra én node med åtte H100 PCIe-GPU-er på en 2B-parameter-modell trent på fineweb.

Kjerneinnsikten er at aktiveringssparsitet i feedforward-lag har vært kjent lenge: bare en liten brøkdel av nevroner aktiveres for et gitt token, resten gir null. Men sparsity har historisk vært tregere enn dense matmul på moderne GPU-er, fordi konvertering fra dense til sparse-format krever en egen kjerne-pass som spiser opp besparelsen. Tradisjonelle formater som ELLPACK gjør nøyaktig dette.

TwELL løser problemet ved å matche tile-størrelsen som matmul-kjernen allerede bruker. Når gate-projeksjonen er ferdig, ligger non-zeros direkte i riktig tile-format. Ingen ekstra kjerne-launch, ingen global synkronisering, ingen ekstra minne-trafikk. Den fused inference-kjernen leser TwELL-formatet og gjør up- og down-projeksjon sammen, slik at det intermediate hidden state aldri skrives til global memory.

Sparsifiseringsstrategien er bevisst minimal: ReLU som gate-aktivering pluss et L1-tap på hidden-aktiveringene med koeffisient 2×10⁻⁵. Ingen endring i læringsrate, weight decay eller optimizer. På den anbefalte settingen faller gjennomsnittlig non-zero aktiveringer fra 911 per lag til 29 i en 1,5B-modell, omtrent 99,5 prosent sparsity, uten målbar accuracy-degradering på syv downstream-benchmarks.

>_ NØKKELTALL

+20,5 % raskere forward-throughput på 2B-modell (87,8 → 106 tokens/ms)

+21,9 % raskere treningssteg-throughput

−17,0 % lavere energiforbruk per token (7,85 → 6,51 mJ)

−28,1 % lavere peak GPU-minne under trening på 1,5B-modell

En bivirkning er verdt å nevne: ved L1-koeffisient 2×10⁻⁵ blir over 30 prosent av nevronene permanent inaktive. Forskerne foreslår en mitigering med målrettet re-initialisering av dead gate-projeksjons-kolonner, som gir +19,1 prosent speedup mot baseline-tallet på +17,9 prosent uten accuracy-kostnad. Effekten øker også med modellstørrelse, og gevinstene er verifisert på NVIDIAs RTX PRO 6000, så dette er ikke H100-spesifikt.

Hva bør du gjøre?

Les paperet hvis du finjusterer egne modeller i 0,5B til 2B-klassen. TwELL krever ReLU-gate og L1-tap allerede under trening, så det er en pre-training-beslutning, ikke en drop-in-optimalisering.
Hold øye med open-source-release. MarkTechPost lenker til både paper og repo, men implementasjonen er CUDA-spesifikk. Sjekk om kjernene treffer GPU-en din før du planlegger rundt tallene.
Sammenhold med ditt eget energiforbruk. 17 prosent lavere mJ/token er målbart på datasenter-skala, men marginalt om du kjører få tusen tokens om dagen lokalt.