Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
arXiv · 8.4., 18:38 · forskning

MegaTrain trener LLM-er med 100 milliarder parametre på ett enkelt GPU

SYNOPSIS_GENERERT

Forskere presenterer MegaTrain, en teknikk som gjør full presisjons-trening av LLM-er med over 100 milliarder parametre mulig på ett enkelt GPU ved å bruke vertsmaskinen sitt CPU-minne som primærlagring.

GPU-klynger mot ett enkelt grafikkort. Det er kontrasten MegaTrain setter opp. Forskerne snur den tradisjonelle arkitekturen på hodet: i stedet for å lagre modellparametre på GPU-en, behandler de den som en forbigående beregningsmotor og bruker vertsmaskinen sitt CPU-minne (opptil 1,5 TB på en H200) som primærlagring.

Flaskehalsen mellom CPU og GPU løses med to optimaliseringer. En pipelined dobbeltbufret motor overlapper forhåndshenting av parametre, beregning og gradient-offloading over flere CUDA-strømmer. I tillegg erstatter de persistente autograd-grafer med tilstandsløse lagmaler som binder vekter dynamisk etter hvert som de strømmes inn.

Resultatene er konkrete: på en enkelt H200 trener MegaTrain modeller med opptil 120 milliarder parametre i full presisjon. Systemet oppnår 1,84 ganger gjennomstrømningen til DeepSpeed ZeRO-3 med CPU-offloading for 14B-modeller, og muliggjør 7B-modelltrening med 512k token kontekst på en enkelt GH200.

>_ NØKKELTALL
120B
Største modell trent på ett GPU
1,84×
Raskere enn DeepSpeed ZeRO-3 (14B)
1,5 TB
Vertsmaskinnens CPU-minne (H200)
512k tokens
Kontekstlengde for 7B-trening (GH200)

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN