1000 tokens per sekund. Det er dekodingshastigheten Xiaomis MiMo-team, sammen med systemgruppen TileRT, måler på en modell med én billion parametere, ifølge MarkTechPost. Demoer topper rundt 1200 tokens per sekund. Det interessante er maskinvaren: hele stacken kjører på én standard node med åtte vanlige GPU-er, ikke custom silisium slik Cerebras og Groq bruker.
Farten kommer fra tre lag som spiller sammen. FP4-kvantisering (MXFP4) brukes kun på MoE-ekspertene, der parameterne er flest og tåler det best, mens kvantiserings-bevisst trening holder kvaliteten omtrent på nivå med originalen. DFlash speculative decoding fyller en hel blokk med maskerte posisjoner i ett forward-pass, i stedet for ett token om gangen. Og TileRT-runtimen holder en «persistent engine kernel» residerende på GPU-en, slik at hvert lille operatør-kall slipper oppstartstid.
Tilgangen er foreløpig stram. UltraSpeed kjører som en søknadsbasert API-prøve fra 9. til 23. juni 2026, til tre ganger prisen av standardmodellen for rundt ti ganger farten. Token Plan støttes ikke. Xiaomi har lagt FP4-DFlash-checkpointen åpent ut på Hugging Face og deler av TileRT på GitHub, så du kan teste påstandene selv.
Hva bør du gjøre?
- Last ned den åpne FP4-DFlash-checkpointen fra Hugging Face hvis du vil verifisere hastighetstallene på egen maskinvare.
- Søk om API-prøven (9. til 23. juni) hvis du kjører latens-sensitive agent-løkker eller parallell resonnering der token-farten er flaskehalsen.
- Vent på uavhengig tredjeparts-verifisering før du baserer produksjon på 1000-TPS-tallet, som foreløpig kun er målt av Xiaomi selv.