Google annonserte denne uken sin åttende TPU-generasjon, og det viktigste arkitektoniske grepet er at brikken nå kommer i to varianter: TPU 8t for trening og TPU 8i for inferens. InfoQs dekning og Googles egne tall viser at det ikke lenger er én chip som forsøker å balansere begge laster.
På treningssiden skalerer en enkelt TPU 8t superpod til 9 600 brikker og 2 petabytes delt high-bandwidth-minne. Det gir 121 ExaFlops og nesten 3x ytelsen over forrige generasjon. Google hevder systemet skalerer nær lineært opp til en million brikker i én lokal klynge, og at lagring er 10x raskere.
Inferens-brikken er optimert for noe annet: lange kontekster, minnetunge operasjoner og samtidige forespørsler fra ulike agenter. 288 GB minne per chip, doblet ICI-båndbredde til 19,2 Tb/s, og ny Boardfly-arkitektur som halverer maksimal nettverksdiameter. Resultatet, ifølge Google: 80 prosent bedre ytelse per dollar.
«Google eier alt fra tastaturet til silisiumet. De har iterert så mye at de forstår hvordan ulike funksjoner som konkurrerer om ressurser skal separeres.» — burnte, Hacker News
For deg som bygger på Google Cloud betyr splittet at agent-orkestrering blir billigere og at multi-step-respons blir raskere. Spørsmålet er om innlåsingen er verdt det. Hacker News-kommentaren fra amelius advarer mot «å bygge slottet ditt i en annens kongerike», og påpeker at du i praksis må velge mellom NVIDIA og Google.
Hva bør du gjøre?
- Hvis du allerede kjører Gemini- eller Vertex-agenter i skala, be om benchmark-tilgang til TPU 8i og mål mot din nåværende A100/H100-baseline.
- Bygger du agent-stack fra scratch i 2026? Test latency på TPU 8i for typiske multi-step-løkker før du commit-er til en GPU-kontrakt.
- Behold portabilitet via vLLM eller llama.cpp som abstraksjonslag, så du kan bytte uten å skrive om agent-koden.