Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
36Kr · 13.5., 12:20 · forskning

He Kaiming slipper ELF: 105M-modell unngår GPT-autoregresjon med kontinuerlig diffusjon

SYNOPSIS_GENERERT

MIT-teamet til He Kaiming slipper ELF, en 105M-parameter diffusjons­modell trent på 45 mrd. tokens som når perplexity 24 på OpenWebText, under modeller trent på 10× mer data.

105 millioner parametere. 45 milliarder trenings-tokens. 32 sampling-steg. Det er hele oppskriften til ELF (Embedded Language Flows), som He Kaimings team ved MIT slapp i forrige uke. Hovedtallet de viser fram: generativ perplexity på 24 på OpenWebText. Mainstream-diskrete diffusjons­modeller som MDLM, LLaDA og Dream 7B trenger typisk 1 024 sampling-steg og over 500 milliarder trenings-tokens for å nærme seg samme nivå.

Det interessante er ikke størrelsen. Det er at ELF er det første beviset på at den kontinuerlige diffusjons­tilnærmingen til tekst faktisk fungerer. Tidligere kontinuerlige modeller, som Diffusion-LM, CDCD og DiffuSeq, beregnet token-nivå cross-entropy ved hvert steg, og det bandt den kontinuerlige banen tilbake til vokabularet. ELF holder all denoising i embedding-rommet og diskretiserer kun ved siste steg t=1. Decoder og denoiser deler vekter; ingen ekstra modul.

«ELF oppnår en sterk balanse mellom generering­skvalitet, sampling-effektivitet og trenings­kostnad.» — Hu Keya et al., MIT, ELF-paperet

Hu Keya er førsteårs PhD-student ved MIT EECS og en av He Kaimings første doktorander der. Et signal som dette betyr at billigere, mer kontrollerbar tekst­generering med færre sampling-steg blir et reelt forsknings­spor utenfor de største produksjons­labbene. Vekter og kode er ikke åpne ennå, men paperet er publisert.

Hva bør du gjøre?

  1. Les paperet hvis du jobber med generative modeller, særlig hvis du har eksperimentert med diffusjons-LM tidligere og gitt opp.
  2. Følg Cactus, Mistral og andre som har eksperimentert med diffusjon. De neste 6 månedene viser om kontinuerlige diffusjons­modeller skalerer til 7B+ parametere.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN