NVIDIA Vera Rubin tredobler minnebåndbredden mot Blackwell og kutter tokenkostnad ti ganger

Der Blackwell-systemene matet hver GPU med 8 TB/s via HBM3e, gir NVIDIAs nye Vera Rubin-plattform 22 TB/s per GPU med HBM4, nær en tredobling. NVIDIA bekrefter at plattformen gikk i full produksjon 1. juni 2026 og sendes til åtte skypartnere til høsten: AWS, Google Cloud, Azure, Oracle, CoreWeave, Lambda, Nebius og Nscale.

Poenget er hvor flaskehalsen faktisk ligger. Når et rack med 72 GPU-er kjører en mixture-of-experts-modell på tusen milliarder parametre, står kortene som regel og venter på data fra minnet, ikke på at regnestykkene skal bli ferdige. Hver Rubin-GPU bærer 288 GB av det raskere minnet, og NVLink 6 dobler samkjøringen mellom kortene fra 1,8 til 3,6 TB/s.

For deg som leier GPU-tid er det prislappen per token som teller. Ti ganger lavere produksjonskostnad per token betyr at å kjøre store modeller i egen pipeline kan bli vesentlig billigere fra høsten, enten du finjusterer eller serverer inferens i skala.

>_ NØKKELTALL

22 TB/s: minnebåndbredde per GPU med HBM4, mot 8 TB/s på Blackwell

3,6 TB/s: NVLink 6 mellom GPU-er, dobbelt av Blackwells 1,8

288 GB: minne per Rubin-GPU

10×: lavere produksjonskostnad per token

Hva bør du gjøre?

Vent med store GPU-innkjøp hvis du planlegger lokal inferens i skala. Rubin-kapasitet hos skypartnere fra høsten kan endre regnestykket for om du bør eie eller leie.
Mål minnebåndbredde, ikke bare FLOPS når du velger instanser. For store modeller er det 22 TB/s-tallet som avgjør gjennomstrømningen, ikke topp regnekraft.
Budsjetter på nytt for høsten. Hvis tokenkostnaden faller ti ganger, kan arbeidslaster du i dag dropper som for dyre bli lønnsomme.