Xiaomi har sluppet MiMo-V2.5-Pro under MIT-lisens på Hugging Face, ifølge selskapets egen modellkort. Mixture-of-Experts-modellen har 1,02 billioner totale parametere og 42 milliarder aktiverte per token, og er forhåndstrent på 27 billioner tokens i FP8 mixed precision. Det interessante er ikke parameter-tallet i seg selv, men hvor langt Xiaomi har dyttet long-context-arkitekturen og hvor lite arbeid det krever å porte modellen.
Sammenlignet med DeepSeek-V4-Pro (49B aktive / 1,6T totale) og Kimi-K2 (32B / 1,04T) ligger MiMo-V2.5-Pro foran på flere praktiske benchmarks. På GSM8K scorer base-modellen 99,6 mot Kimi-K2s 92,1. På SWE-Bench Verified lander instruct-versjonen på 78,9 og på SWE-Bench Pro på 57,2. På TerminalBench 2.0, der vi nylig dekket open source-agenten Dirac, scorer MiMo-V2.5-Pro 68,4. På GraphWalks (OpenAIs long-context-benchmark som fyller prompten med en hash-graf og ber modellen kjøre BFS) holder modellen 0,56 BFS / 0,92 Parents på 512k tokens og 0,37 / 0,62 helt ut til 1M, mens den forrige V2-Pro-generasjonen kollapser til 0,00 ved samme avstand.
«Hybrid attention interleaver Sliding Window Attention og Global Attention med 6:1-ratio og 128 sliding window. Det reduserer KV-cache-lagring nesten 7x og opprettholder long-context-ytelse via lærbar attention sink-bias.» — Xiaomi MiMo-team, modellkort på Hugging Face
Multi-Token Prediction-modulen tredobler output-hastigheten under inferens, og MTP-blokkene er natively integrert i pretraining istedenfor å være en speculative-decoding-add-on. Praktisk konsekvens: lavere latency for agentiske kjøringer som genererer mange korte tool-call-sekvenser. Modellen har også blitt portert til SGLang og vLLM på dag null, samt Alibaba T-Head, AWS, AMD, Baidu Kunlun, Suiyuan, Moore Threads og Tianshu Zhixin. SGLang-deploymentet i modellkortet bruker tp-size 16 og dp-size 2, så å kjøre Pro-versjonen lokalt er ikke et hjemmeprosjekt.
For deg som bygger med open source-modeller: MIT-lisens betyr at du kan kjøre dette i kommersielle produkter uten bekymringer rundt restriksjoner som plager Llama-økosystemet. For norske bygg-folk uten 16-GPU-cluster er likevel den mer tilgjengelige varianten MiMo-V2.5 (ikke Pro), som har 311 milliarder totale og 15 milliarder aktive parametere og fortsatt slår mange større modeller på generelle benchmarks.
Hva bør du gjøre?
- Velg riktig variant. Pro er for alvorlige multi-GPU-deploymenter. Den vanlige V2.5 (15B/311B MoE) er det realistiske valget hvis du eksperimenterer på en enkelt H100 eller leier inferens fra en provider som har portet modellen.
- Test 1M-kontekst-påstanden mot ditt eget bruk. Benchmark-tall er én ting, men din konkrete RAG-pipeline eller agent-trace har egen distribusjon. Bruk GraphWalks-stilen evals (BFS over en kunstig graf) for å avdekke hvor modellen faktisk degraderer.
- Vurder MTP-akselerasjonen hvis du planlegger lange tool-use-trajektorier. Tre ekstra MTP-lag betyr 3x output-hastighet, men også mer minne under inferens. Mål både gjennomstrømning og VRAM før du regner med gevinsten i prod.