Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
MarkTechPost · 9.6., 16:39 · modell

Xiaomi MiMo og TileRT presser en billionparameter-modell forbi 1000 tokens per sekund på vanlige GPU-er

SYNOPSIS_GENERERT

Xiaomis MiMo-V2.5-Pro-UltraSpeed dekoder over 1000 tokens per sekund på en modell med én billion parametere, kjørt på vanlige GPU-er. Det er ifølge Xiaomi første gang ved billion-skala.

1000 tokens per sekund. Det er dekodingshastigheten Xiaomis MiMo-team, sammen med systemgruppen TileRT, måler på en modell med én billion parametere, ifølge MarkTechPost. Demoer topper rundt 1200 tokens per sekund. Det interessante er maskinvaren: hele stacken kjører på én standard node med åtte vanlige GPU-er, ikke custom silisium slik Cerebras og Groq bruker.

Farten kommer fra tre lag som spiller sammen. FP4-kvantisering (MXFP4) brukes kun på MoE-ekspertene, der parameterne er flest og tåler det best, mens kvantiserings-bevisst trening holder kvaliteten omtrent på nivå med originalen. DFlash speculative decoding fyller en hel blokk med maskerte posisjoner i ett forward-pass, i stedet for ett token om gangen. Og TileRT-runtimen holder en «persistent engine kernel» residerende på GPU-en, slik at hvert lille operatør-kall slipper oppstartstid.

>_ NØKKELTALL
1000+
tokens per sekund på en 1-billion-parameters modell
10x
raskere dekoding enn standard MiMo-V2.5-Pro
3x
prisen per token mot standardmodellen
8
vanlige GPU-er i én node, ingen spesialsilisium

Tilgangen er foreløpig stram. UltraSpeed kjører som en søknadsbasert API-prøve fra 9. til 23. juni 2026, til tre ganger prisen av standardmodellen for rundt ti ganger farten. Token Plan støttes ikke. Xiaomi har lagt FP4-DFlash-checkpointen åpent ut på Hugging Face og deler av TileRT på GitHub, så du kan teste påstandene selv.

Hva bør du gjøre?

  1. Last ned den åpne FP4-DFlash-checkpointen fra Hugging Face hvis du vil verifisere hastighetstallene på egen maskinvare.
  1. Søk om API-prøven (9. til 23. juni) hvis du kjører latens-sensitive agent-løkker eller parallell resonnering der token-farten er flaskehalsen.
  2. Vent på uavhengig tredjeparts-verifisering før du baserer produksjon på 1000-TPS-tallet, som foreløpig kun er målt av Xiaomi selv.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN