Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
The Register · 2T SIDEN · forskning

SEMQ-metoden kutter minnebruk for KI-modeller uten å tape nøyaktighet

SYNOPSIS_GENERERT

The SEMQ Group har vist at metoden SEMQ matcher FP32-nøyaktighet på 92 prosent samtidig som den kutter minnebruk kraftig, der vanlig 4-bits kvantisering faller til 56 prosent.

Fire-bits kvantisering krymper en KI-modell, men på Banking77-datasettet raser nøyaktigheten fra 92,26 til 56,05 prosent. SEMQ, en metode fra selskapet The SEMQ Group, lander på 92,27 prosent, altså på nivå med FP32, samtidig som den kutter lagringsbehovet. Kontrasten er hele poenget: du kan gjøre modellen mindre uten å ofre kvaliteten.

SEMQ står for Symbolic Embedding Multi-Quantization. I stedet for å komprimere modellvektene beholder metoden de strukturelle relasjonene som koder mening, og løser representasjonen fra selve tallverdiene. Testen brukte embedding-modellen all-MiniLM-L6-v2. Til sammenligning veier en modell med 7 milliarder parametere rundt 28 GB i FP32 og 14 GB i FP16, mens SEMQ sikter mot vesentlig lavere.

«En embedding lagres vanligvis som en lang vektor av flyttall, altså en sekvens av høypresise numeriske koordinater» — Andrés Mac Allister, grunnlegger og CEO i The SEMQ Group

For deg som kjører modeller lokalt eller på rimelig maskinvare, er poenget tilgjengelighet: metoden kan legges på ved datainntak eller spørring uten å bytte ut eksisterende LLM-infrastruktur, som et «sidecar»-lag. Forbeholdet er at dette er tidlige resultater fra ett datasett og én embedding-modell, ikke en bredt validert standard. Men retningen er interessant for alle som vil presse større modeller ned på svakere maskiner.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN