Der Blackwell-systemene matet hver GPU med 8 TB/s via HBM3e, gir NVIDIAs nye Vera Rubin-plattform 22 TB/s per GPU med HBM4, nær en tredobling. NVIDIA bekrefter at plattformen gikk i full produksjon 1. juni 2026 og sendes til åtte skypartnere til høsten: AWS, Google Cloud, Azure, Oracle, CoreWeave, Lambda, Nebius og Nscale.
Poenget er hvor flaskehalsen faktisk ligger. Når et rack med 72 GPU-er kjører en mixture-of-experts-modell på tusen milliarder parametre, står kortene som regel og venter på data fra minnet, ikke på at regnestykkene skal bli ferdige. Hver Rubin-GPU bærer 288 GB av det raskere minnet, og NVLink 6 dobler samkjøringen mellom kortene fra 1,8 til 3,6 TB/s.
For deg som leier GPU-tid er det prislappen per token som teller. Ti ganger lavere produksjonskostnad per token betyr at å kjøre store modeller i egen pipeline kan bli vesentlig billigere fra høsten, enten du finjusterer eller serverer inferens i skala.
Hva bør du gjøre?
- Vent med store GPU-innkjøp hvis du planlegger lokal inferens i skala. Rubin-kapasitet hos skypartnere fra høsten kan endre regnestykket for om du bør eie eller leie.
- Mål minnebåndbredde, ikke bare FLOPS når du velger instanser. For store modeller er det 22 TB/s-tallet som avgjør gjennomstrømningen, ikke topp regnekraft.
- Budsjetter på nytt for høsten. Hvis tokenkostnaden faller ti ganger, kan arbeidslaster du i dag dropper som for dyre bli lønnsomme.