Moonshot slipper Kimi Vendor Verifier: test om inferens-leverandøren din faktisk kjører den modellen du betaler for

«If users cannot distinguish between model capability defects and engineering implementation deviations, trust in the open-source ecosystem will inevitably collapse.» — Moonshot AI, KVV-lanseringsposten

Moonshot slapp Kimi Vendor Verifier (KVV) samtidig med Kimi K2.6. Verktøyet finnes fordi teamet så stor variasjon i benchmark-scorer mellom tredjeparts-API-er og deres egen API — noen ganger forårsaket av noe så trivielt som feil temperature-parametere, andre ganger av at leverandøren stille bytter til en kvantisert variant av modellen.

Seks benchmarks er valgt spesifikt fordi de eksponerer ulike typer infrastruktur-feil. Moonshot melder inn rettelser oppstrøms til vLLM, SGLang og KTransformers, og skal publisere en offentlig leaderboard over leverandørresultater. Full evalueringsløype krever to NVIDIA H20 8-GPU-servere og tar omtrent 15 timer per modell — ikke noe du kjører på laptopen din.

For brukere som ikke har den maskinvaren, er den praktiske bruken å lese Moonshots offentlige resultater før de velger mellom OpenRouter, Together, Fireworks eller andre inferens-leverandører for Kimi-modeller.

>_ NØKKELTALL

6 benchmarks valgt for å avsløre spesifikke infra-feil (dekoding, kvantisering, modellbytte)

192 poeng på Hacker News på lanseringsdagen

~15 timer per modell for full evaluering på 2x H20 8-GPU-servere

Temperature=1.0, TopP=0.95 håndheves nå på offisiell API for thinking-mode

Hva bør du gjøre?

Hvis du kjører Kimi K2-modeller mot en tredjeparts-API, sjekk KVV-leaderboardet før du baserer produksjon på leverandøren.
Skriv dine egne regresjonstester mot inferens-leverandøren med et fast prompt-sett. Benchmark-score er et signal, men din faktiske workload kan være mer følsom for stille kvantisering.
Valider dekodings-parametere eksplisitt i klienten din — ikke stol på at leverandøren har rett default.

Bakgrunn

Dette er en motreaksjon mot et voksende problem i åpen-modell-økosystemet: vektene er åpne, men måten de kjøres på er ikke. Når identisk prompt gir markant ulike svar avhengig av leverandør, blir det vanskelig for brukere å vite om det er modellen eller infrastrukturen som svikter. Moonshot velger å løse det med transparens og oppstrøms-fikser heller enn å stenge modellen.