Tencent slipper Hunyuan-MT i 1,25-bit kvantisering: 33 språk i 440 MB som kjører offline på telefon

Fra 3,3 GB til 440 MB. Det er kompresjons-faktoren Tencent oppnår i Hy-MT1.5-1.8B-1.25bit, en ekstrem-kvantisert versjon av oversettelsesmodellen som ble åpnet 29. april. Modellen støtter 33 språk, 5 dialekter og kinesisk-til-minoritetsspråk-oversettelser med totalt 1056 retninger, og kjører helt lokalt på Android.

Tencent slipper to varianter: en 2-bits versjon på 574 MB som bruker elastisk strekk-kvantisering og er rettet mot mid-til-high-end-telefoner med Arm SME2-støtte, og en 1,25-bits versjon på 440 MB som bygger på en ny intern teknikk Tencent kaller Sherry (Sparse Efficient Ternary Quantization). Sherry-papiret er akseptert av ACL 2026.

Mekanismen i Sherry er enkel når du hører den: i hver gruppe på fire parametere lagres de tre viktigste med 1 bit, mens den siste droppes (0 bit). Det gir et snitt på 1,25 bit per parameter. Tencent har også skrevet en egen STQ-kjerne for mobile CPU-er som matcher SIMD-instruksjonssettene, slik at inferens-hastigheten holder mål med kompresjonsraten.

Tencent hevder Hy-MT1.5 i sin opprinnelige form når kvalitet «på linje med kommersielle oversettelses-APIer og 235B-modeller» i interne benchmarks. Det er en sterk påstand som ennå ikke er reprodusert utenfor Tencents egne tall, men selv en delvis oppnåelse ville gjøre 440 MB-modellen interessant for lokale bygg.

For norske byggere er det praktiske bildet slik: vektene ligger åpent på ModelScope, demo-appen er foreløpig kun på Android i Kina, og iOS-versjonen mangler. Hvis du jobber med selvhostede assistenter, oversettelses-pipelines eller offline-funksjoner i mobil-apper, er dette første gang en 33-språks-modell faktisk får plass på en telefon uten å spise lagring.

Konkurransebildet er tett: Alibaba, Google og Meta har alle åpnet lette oversettelses-modeller før, men ingen i 1,25-bits-territoriet. Tencents differensiering er kompresjonsraten kombinert med null nettverkskrav og en personvern-modus som ikke laster opp tekst.

Hva bør du gjøre?

Hent 1,25-bits-vektene fra ModelScope og test mot dine egne språkpar. 440 MB lar deg pakke modellen inn i en mobilbygg eller selvhostet tjeneste uten ressurs-bekymringer.
Sammenlign mot DeepL eller Google Translate på samme tekster før du bytter ut en eksisterende oversettelses-stack. Tencents tall er interne, så valider dem på din egen domene-tekst.
Vurder Sherry-teknikken for andre småmodeller du selv kvantiserer: papiret kommer på ACL 2026, men de strukturelle prinsippene kan brukes i dag på modeller der minne er flaskehalsen.