AI Pressa · 1.5., 12:16 · forskning

Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening

SYNOPSIS_GENERERT

«6x-forbedringen vil sannsynligvis bli brukt til lengre kontekstvinduer eller bedre modeller, ikke til å frigjøre minnet ditt,» kommenterte Merrill Lynch-analytikere etter Googles presentasjon av TurboQuant. Teknikken komprimerer KV-cachen i LLM-er under inference med to grep: PolarQuant konverterer fra kartesiske til polarkoordinater, og Quantized Johnson-Lindenstrauss (QJL) retter kvantiseringsfeil. Google har testet på Llama 3.1-8B, Gemma og Mistral uten ytelsestap, og uten retrening. TurboQuant vises på ICLR 2026 og AISTATS 2026, men det er fortsatt forskningskode — ikke en patch du kan slå på i llama.cpp i dag.

Hva betyr dette i praksis

For deg som kjører lokale modeller, er KV-cachen ofte det som spiser minnet på lange kontekster. TurboQuant peker på en vei der du kan kjøre lengre kontekst på samme rigg uten kvalitetstap. Inntil koden er ute, er det verdt å følge med på llama.cpp og vLLM — det er der teknikker som dette først blir praktiske. Caveat fra Merrill Lynch er reell: store labs bruker effektivitetsgevinster på å skalere videre, ikke på å gi deg gratis VRAM tilbake.

Åpne eksternt kildedokument

ytelse kvantisering Google

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN