Xiaomi slipper MiMo-V2.5-Pro under MIT: 1,02 billioner parametere MoE med 1M-token kontekst

Xiaomi har sluppet MiMo-V2.5-Pro under MIT-lisens på Hugging Face, ifølge selskapets egen modellkort. Mixture-of-Experts-modellen har 1,02 billioner totale parametere og 42 milliarder aktiverte per token, og er forhåndstrent på 27 billioner tokens i FP8 mixed precision. Det interessante er ikke parameter-tallet i seg selv, men hvor langt Xiaomi har dyttet long-context-arkitekturen og hvor lite arbeid det krever å porte modellen.

Sammenlignet med DeepSeek-V4-Pro (49B aktive / 1,6T totale) og Kimi-K2 (32B / 1,04T) ligger MiMo-V2.5-Pro foran på flere praktiske benchmarks. På GSM8K scorer base-modellen 99,6 mot Kimi-K2s 92,1. På SWE-Bench Verified lander instruct-versjonen på 78,9 og på SWE-Bench Pro på 57,2. På TerminalBench 2.0, der vi nylig dekket open source-agenten Dirac, scorer MiMo-V2.5-Pro 68,4. På GraphWalks (OpenAIs long-context-benchmark som fyller prompten med en hash-graf og ber modellen kjøre BFS) holder modellen 0,56 BFS / 0,92 Parents på 512k tokens og 0,37 / 0,62 helt ut til 1M, mens den forrige V2-Pro-generasjonen kollapser til 0,00 ved samme avstand.

«Hybrid attention interleaver Sliding Window Attention og Global Attention med 6:1-ratio og 128 sliding window. Det reduserer KV-cache-lagring nesten 7x og opprettholder long-context-ytelse via lærbar attention sink-bias.» — Xiaomi MiMo-team, modellkort på Hugging Face

Multi-Token Prediction-modulen tredobler output-hastigheten under inferens, og MTP-blokkene er natively integrert i pretraining istedenfor å være en speculative-decoding-add-on. Praktisk konsekvens: lavere latency for agentiske kjøringer som genererer mange korte tool-call-sekvenser. Modellen har også blitt portert til SGLang og vLLM på dag null, samt Alibaba T-Head, AWS, AMD, Baidu Kunlun, Suiyuan, Moore Threads og Tianshu Zhixin. SGLang-deploymentet i modellkortet bruker tp-size 16 og dp-size 2, så å kjøre Pro-versjonen lokalt er ikke et hjemmeprosjekt.

For deg som bygger med open source-modeller: MIT-lisens betyr at du kan kjøre dette i kommersielle produkter uten bekymringer rundt restriksjoner som plager Llama-økosystemet. For norske bygg-folk uten 16-GPU-cluster er likevel den mer tilgjengelige varianten MiMo-V2.5 (ikke Pro), som har 311 milliarder totale og 15 milliarder aktive parametere og fortsatt slår mange større modeller på generelle benchmarks.

Hva bør du gjøre?

Velg riktig variant. Pro er for alvorlige multi-GPU-deploymenter. Den vanlige V2.5 (15B/311B MoE) er det realistiske valget hvis du eksperimenterer på en enkelt H100 eller leier inferens fra en provider som har portet modellen.
Test 1M-kontekst-påstanden mot ditt eget bruk. Benchmark-tall er én ting, men din konkrete RAG-pipeline eller agent-trace har egen distribusjon. Bruk GraphWalks-stilen evals (BFS over en kunstig graf) for å avdekke hvor modellen faktisk degraderer.
Vurder MTP-akselerasjonen hvis du planlegger lange tool-use-trajektorier. Tre ekstra MTP-lag betyr 3x output-hastighet, men også mer minne under inferens. Mål både gjennomstrømning og VRAM før du regner med gevinsten i prod.