PrismML lanserte 21. april Ternary Bonsai, en familie på 1,7B, 4B og 8B parametere der hver vekt lagres som ett av tre verdier: -1, 0 eller +1. Det gir 1,58 bits per vekt og et minnefotavtrykk rundt 9x mindre enn tilsvarende 16-bits modeller, uten høyere-presisjon «escape hatches» noe sted i arkitekturen.
Tallene er konkrete: 8B-varianten scorer 75,5 i gjennomsnitt over benchmarks som MMLU Redux, GSM8K, HumanEval+ og BFCLv3, mot 70,5 for den eldre 1-bits Bonsai 8B. På samme maskinvare er den 5x raskere enn en 16-bits 8B-modell, med 3-4x bedre energieffektivitet. På iPhone 17 Pro Max leverer den 27 tokens/sek.
«Ternary Bonsai extends the Pareto frontier further left. Where a small increase in memory can justify a substantially stronger model, it offers an alternative tradeoff.» — PrismML, lanseringsposten
Som referanse: Qwen3 8B krever 16,38 GB mot Ternary Bonsai 8Bs 1,75 GB. PrismML hevder de slår alt annet i parameterklassen sin bortsett fra nettopp Qwen3 8B. Vektene er lagt ut under Apache 2.0 og kjører natively på Apple-enheter via MLX.
Hva bør du gjøre?
- Last ned 1,7B-varianten fra Apache 2.0-drop hvis du allerede bruker MLX på Mac — den er minste inngangen for å teste hvordan 1,58-bits oppfører seg mot din workload.
- Sammenlign ytelse mot din nåværende lokale modell på samme prompt-sett. Ikke stol blindt på PrismMLs benchmarks — kjør dine egne evals.
- Vurder om du trenger GPU overhodet: en 8B-modell som kjører raskt nok på CPU endrer kost-regnestykket for lokale agenter.
Bakgrunn
Ternær kvantisering ble popularisert av Microsofts BitNet-papir i 2024. PrismML, et Caltech-spinoff med støtte fra Khosla Ventures og Google, bygger en produktlinje rundt ideen: først 1-bits Bonsai, nå 1,58-bits-varianten som ligger et hakk oppover på Pareto-kurven mellom størrelse og kvalitet.