For deg som vurderer egen inferens-hardware er dette et datapunkt verdt å notere, ikke en fasit. AMDs MI355X har lenge vært billigere på papiret, men programvarestacken (ROCm mot CUDA) har vært bøygen. At noen viser konkurransedyktig gjennomstrømning på en åpen modell som GLM-5.2, tyder på at gapet smalner.
Les tallene med forbehold. Én benchmark fra én aktør er ikke en garanti for din arbeidslast, og «per node» skjuler valg om batching, kontekstlengde og kvantisering. Men retningen er interessant: mer press på Nvidia betyr flere reelle alternativer for deg som vil eie inferensen selv i stedet for å leie den per token.