Google deler TPU i to: 8t for trening, 8i for inferens, dobbel ytelse per watt

Der Nvidias H200 og B200 skal være allroundere, har Google gjort motsatt valg på Cloud Next 2026: treningsbrikken TPU 8t leverer 121 FP4 EFlops per pod og sikter mot en reduksjon i treningstid fra månedvis til ukesvis for frontier-modeller. Inferensbrikken TPU 8i kjører i pods av 1152 brikker (mot Ironwoods 256) og har tredoblet on-chip SRAM til 384 MB for lengre kontekstvinduer.

«The eighth-gen TPUs don't exactly sip power, but Google claims the chips offer twice the performance per watt compared to Ironwood.» (Ryan Whitwam, Ars Technica)

Begge brikkene hviler utelukkende på Googles egne Axion ARM-CPU-er, med én CPU per to TPU-er, mot Ironwoods x86-host som hadde én CPU per fire TPU-er. Dette er Googles første fulle ARM-stack for KI-akseleratorer.

For deg som utvikler er det praktiske spørsmålet om du kommer i nærheten. JAX, MaxText, PyTorch, SGLang og vLLM er støttet ut av boksen på begge brikkene, men du må leie dem fra Google Cloud. De selges ikke som Nvidia-kort.

>_ NØKKELTALL

9 600: Antall TPU 8t-brikker per pod, med 2 PB delt HBM

1 152: TPU 8i-brikker per pod, 4,5 ganger mer enn Ironwood (256)

6x: Økning i compute per kWh ifølge Google, takket være co-designede datasentre

Hva bør du gjøre?

Test vLLM/SGLang på TPU 8i hvis du serverer modeller i skala: Google tilbyr preview gjennom Vertex AI, og den større SRAM-en gir lengre kontekstvinduer uten KV-cache-spillover.
Ikke hopp fra Nvidia uten pilot: ARM-hostet stack og TPU-spesifikke nytte-mønstre gjør migreringen ikke-triviell selv med JAX/PyTorch-støtte.
Følg med på prising: Nvidias aksje falt 1,5 % på annonseringen før den rettet seg. Markedet tviler fortsatt på at Google kan presse Nvidia på åpne API-priser.