GPU-klynger mot ett enkelt grafikkort. Det er kontrasten MegaTrain setter opp. Forskerne snur den tradisjonelle arkitekturen på hodet: i stedet for å lagre modellparametre på GPU-en, behandler de den som en forbigående beregningsmotor og bruker vertsmaskinen sitt CPU-minne (opptil 1,5 TB på en H200) som primærlagring.
Flaskehalsen mellom CPU og GPU løses med to optimaliseringer. En pipelined dobbeltbufret motor overlapper forhåndshenting av parametre, beregning og gradient-offloading over flere CUDA-strømmer. I tillegg erstatter de persistente autograd-grafer med tilstandsløse lagmaler som binder vekter dynamisk etter hvert som de strømmes inn.
Resultatene er konkrete: på en enkelt H200 trener MegaTrain modeller med opptil 120 milliarder parametre i full presisjon. Systemet oppnår 1,84 ganger gjennomstrømningen til DeepSpeed ZeRO-3 med CPU-offloading for 14B-modeller, og muliggjør 7B-modelltrening med 512k token kontekst på en enkelt GH200.