Xiaomi MiMo og TileRT presser en billionparameter-modell forbi 1000 tokens per sekund på vanlige GPU-er

1000 tokens per sekund. Det er dekodingshastigheten Xiaomis MiMo-team, sammen med systemgruppen TileRT, måler på en modell med én billion parametere, ifølge MarkTechPost. Demoer topper rundt 1200 tokens per sekund. Det interessante er maskinvaren: hele stacken kjører på én standard node med åtte vanlige GPU-er, ikke custom silisium slik Cerebras og Groq bruker.

Farten kommer fra tre lag som spiller sammen. FP4-kvantisering (MXFP4) brukes kun på MoE-ekspertene, der parameterne er flest og tåler det best, mens kvantiserings-bevisst trening holder kvaliteten omtrent på nivå med originalen. DFlash speculative decoding fyller en hel blokk med maskerte posisjoner i ett forward-pass, i stedet for ett token om gangen. Og TileRT-runtimen holder en «persistent engine kernel» residerende på GPU-en, slik at hvert lille operatør-kall slipper oppstartstid.

>_ NØKKELTALL

1000+

tokens per sekund på en 1-billion-parameters modell

10x

raskere dekoding enn standard MiMo-V2.5-Pro

prisen per token mot standardmodellen

vanlige GPU-er i én node, ingen spesialsilisium

Tilgangen er foreløpig stram. UltraSpeed kjører som en søknadsbasert API-prøve fra 9. til 23. juni 2026, til tre ganger prisen av standardmodellen for rundt ti ganger farten. Token Plan støttes ikke. Xiaomi har lagt FP4-DFlash-checkpointen åpent ut på Hugging Face og deler av TileRT på GitHub, så du kan teste påstandene selv.

Hva bør du gjøre?

Last ned den åpne FP4-DFlash-checkpointen fra Hugging Face hvis du vil verifisere hastighetstallene på egen maskinvare.

Søk om API-prøven (9. til 23. juni) hvis du kjører latens-sensitive agent-løkker eller parallell resonnering der token-farten er flaskehalsen.
Vent på uavhengig tredjeparts-verifisering før du baserer produksjon på 1000-TPS-tallet, som foreløpig kun er målt av Xiaomi selv.