Intel auto-round v0.12.3: kvantiserer LLM til 2–4 bit på CPU og GPU med vLLM- og SGLang-støtte

97,9 prosent: det er nøyaktigheten Intel rapporterer for en INT2-mixed kvantisering av DeepSeek-R1 ned til ~200 GB med auto-round. Verktøyet er en åpen kvantiseringsstack basert på sign-gradient descent (beskrevet i SignRoundV1- og SignRoundV2-papirene) og støtter formatene AutoRound, AutoAWQ, AutoGPTQ og GGUF samtidig. Repoet har 1133 stjerner på GitHub og 32 releases siden 2024, sist oppdatert 28. april med blant annet block-wise FP8 og MTP-lagskvantisering.

Hovedgrunnen til å se på v0.12.3 er kompatibilitet. Auto-round er integrert direkte i vLLM, SGLang, Transformers og LLM-Compressor, og du kan kjøre på Intel Xeon CPU, Intel XPU, CUDA eller HPU Gaudi via samme pip-pakke. Det betyr at du kvantiserer modellen én gang og kjører den på den runtimen du allerede har, uten å konvertere mellom formater i ettertid.

«Quantize 7B models in about 10 minutes on a single GPU.» — Intel auto-round README

For lokale modeller er dette mest relevant via W4A16-skjemaet. Standardoppskriften auto-round gir lavest tap ved 4-bit, auto-round-light er 2 til 3 ganger raskere med litt høyere tap, og auto-round-best koster rundt 3 ganger mer kvantiseringstid mot bedre nøyaktighet ved aggressiv W2A16. Verktøyet dekker også 10+ vision-language-modeller out-of-the-box.

Hva bør du gjøre?

Test 4-bit på din egen modell først. Kjør auto-round --model Qwen/Qwen3-0.6B --scheme W4A16 --format auto_round og sammenlign perplexity før du går lavere.
For 2-bit, bruk auto-round-best med enable_alg_ext. Standardoppskriften taper merkbart ved W2A16, og den eksperimentelle algoritmen er der hovedforbedringen ligger.
Eksporter til GGUF hvis du kjører llama.cpp eller Ollama lokalt. auto-round produserer flere formater i samme kjøring, så du slipper å konvertere via mellomverktøy.