He Kaiming slipper ELF: 105M-modell unngår GPT-autoregresjon med kontinuerlig diffusjon

105 millioner parametere. 45 milliarder trenings-tokens. 32 sampling-steg. Det er hele oppskriften til ELF (Embedded Language Flows), som He Kaimings team ved MIT slapp i forrige uke. Hovedtallet de viser fram: generativ perplexity på 24 på OpenWebText. Mainstream-diskrete diffusjonsmodeller som MDLM, LLaDA og Dream 7B trenger typisk 1 024 sampling-steg og over 500 milliarder trenings-tokens for å nærme seg samme nivå.

Det interessante er ikke størrelsen. Det er at ELF er det første beviset på at den kontinuerlige diffusjonstilnærmingen til tekst faktisk fungerer. Tidligere kontinuerlige modeller, som Diffusion-LM, CDCD og DiffuSeq, beregnet token-nivå cross-entropy ved hvert steg, og det bandt den kontinuerlige banen tilbake til vokabularet. ELF holder all denoising i embedding-rommet og diskretiserer kun ved siste steg t=1. Decoder og denoiser deler vekter; ingen ekstra modul.

«ELF oppnår en sterk balanse mellom genereringskvalitet, sampling-effektivitet og treningskostnad.» — Hu Keya et al., MIT, ELF-paperet

Hu Keya er førsteårs PhD-student ved MIT EECS og en av He Kaimings første doktorander der. Et signal som dette betyr at billigere, mer kontrollerbar tekstgenerering med færre sampling-steg blir et reelt forskningsspor utenfor de største produksjonslabbene. Vekter og kode er ikke åpne ennå, men paperet er publisert.

Hva bør du gjøre?

Les paperet hvis du jobber med generative modeller, særlig hvis du har eksperimentert med diffusjons-LM tidligere og gitt opp.
Følg Cactus, Mistral og andre som har eksperimentert med diffusjon. De neste 6 månedene viser om kontinuerlige diffusjonsmodeller skalerer til 7B+ parametere.