Fire-bits kvantisering krymper en KI-modell, men på Banking77-datasettet raser nøyaktigheten fra 92,26 til 56,05 prosent. SEMQ, en metode fra selskapet The SEMQ Group, lander på 92,27 prosent, altså på nivå med FP32, samtidig som den kutter lagringsbehovet. Kontrasten er hele poenget: du kan gjøre modellen mindre uten å ofre kvaliteten.
SEMQ står for Symbolic Embedding Multi-Quantization. I stedet for å komprimere modellvektene beholder metoden de strukturelle relasjonene som koder mening, og løser representasjonen fra selve tallverdiene. Testen brukte embedding-modellen all-MiniLM-L6-v2. Til sammenligning veier en modell med 7 milliarder parametere rundt 28 GB i FP32 og 14 GB i FP16, mens SEMQ sikter mot vesentlig lavere.
«En embedding lagres vanligvis som en lang vektor av flyttall, altså en sekvens av høypresise numeriske koordinater» — Andrés Mac Allister, grunnlegger og CEO i The SEMQ Group
For deg som kjører modeller lokalt eller på rimelig maskinvare, er poenget tilgjengelighet: metoden kan legges på ved datainntak eller spørring uten å bytte ut eksisterende LLM-infrastruktur, som et «sidecar»-lag. Forbeholdet er at dette er tidlige resultater fra ett datasett og én embedding-modell, ikke en bredt validert standard. Men retningen er interessant for alle som vil presse større modeller ned på svakere maskiner.