MegaTrain trener LLM-er med 100 milliarder parametre på ett enkelt GPU

GPU-klynger mot ett enkelt grafikkort. Det er kontrasten MegaTrain setter opp. Forskerne snur den tradisjonelle arkitekturen på hodet: i stedet for å lagre modellparametre på GPU-en, behandler de den som en forbigående beregningsmotor og bruker vertsmaskinen sitt CPU-minne (opptil 1,5 TB på en H200) som primærlagring.

Flaskehalsen mellom CPU og GPU løses med to optimaliseringer. En pipelined dobbeltbufret motor overlapper forhåndshenting av parametre, beregning og gradient-offloading over flere CUDA-strømmer. I tillegg erstatter de persistente autograd-grafer med tilstandsløse lagmaler som binder vekter dynamisk etter hvert som de strømmes inn.

Resultatene er konkrete: på en enkelt H200 trener MegaTrain modeller med opptil 120 milliarder parametre i full presisjon. Systemet oppnår 1,84 ganger gjennomstrømningen til DeepSpeed ZeRO-3 med CPU-offloading for 14B-modeller, og muliggjør 7B-modelltrening med 512k token kontekst på en enkelt GH200.

>_ NØKKELTALL

120B

Største modell trent på ett GPU

1,84×

Raskere enn DeepSpeed ZeRO-3 (14B)

1,5 TB

Vertsmaskinnens CPU-minne (H200)

512k tokens

Kontekstlengde for 7B-trening (GH200)