Wafer AI · 1T SIDEN · analyse

GLM-5.2 kjører 2626 tokens/sek per node på AMD MI355X til under halve Blackwell-prisen

SYNOPSIS_GENERERT

Wafer AI har målt Zhipus åpne GLM-5.2 på AMDs Instinct MI355X, og rapporterer 2626 tokens i sekundet per node til over dobbelt så lav kostnad per token som Nvidia Blackwell. Benchmarken gjelder inferens på open source-modeller. Tallene utfordrer antakelsen om at Nvidia er det opplagte valget for selvhostet inferens.

For deg som vurderer egen inferens-hardware er dette et datapunkt verdt å notere, ikke en fasit. AMDs MI355X har lenge vært billigere på papiret, men programvarestacken (ROCm mot CUDA) har vært bøygen. At noen viser konkurransedyktig gjennomstrømning på en åpen modell som GLM-5.2, tyder på at gapet smalner.

Les tallene med forbehold. Én benchmark fra én aktør er ikke en garanti for din arbeidslast, og «per node» skjuler valg om batching, kontekstlengde og kvantisering. Men retningen er interessant: mer press på Nvidia betyr flere reelle alternativer for deg som vil eie inferensen selv i stedet for å leie den per token.

Åpne eksternt kildedokument

lokale-modeller ytelse økonomi

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN