Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU

PrismML lanserte 21. april Ternary Bonsai, en familie på 1,7B, 4B og 8B parametere der hver vekt lagres som ett av tre verdier: -1, 0 eller +1. Det gir 1,58 bits per vekt og et minnefotavtrykk rundt 9x mindre enn tilsvarende 16-bits modeller, uten høyere-presisjon «escape hatches» noe sted i arkitekturen.

Tallene er konkrete: 8B-varianten scorer 75,5 i gjennomsnitt over benchmarks som MMLU Redux, GSM8K, HumanEval+ og BFCLv3, mot 70,5 for den eldre 1-bits Bonsai 8B. På samme maskinvare er den 5x raskere enn en 16-bits 8B-modell, med 3-4x bedre energieffektivitet. På iPhone 17 Pro Max leverer den 27 tokens/sek.

«Ternary Bonsai extends the Pareto frontier further left. Where a small increase in memory can justify a substantially stronger model, it offers an alternative tradeoff.» — PrismML, lanseringsposten

Som referanse: Qwen3 8B krever 16,38 GB mot Ternary Bonsai 8Bs 1,75 GB. PrismML hevder de slår alt annet i parameterklassen sin bortsett fra nettopp Qwen3 8B. Vektene er lagt ut under Apache 2.0 og kjører natively på Apple-enheter via MLX.

>_ NØKKELTALL

1,58 bits per vekt via ternær kvantisering {-1, 0, +1}

1,75 GB minne for 8B-modellen, mot ~16 GB for 16-bits ekvivalent

82 tokens/sek på M4 Pro, 27 tokens/sek på iPhone 17 Pro Max

75,5 snittscore på benchmarks for 8B-varianten

Hva bør du gjøre?

Last ned 1,7B-varianten fra Apache 2.0-drop hvis du allerede bruker MLX på Mac — den er minste inngangen for å teste hvordan 1,58-bits oppfører seg mot din workload.
Sammenlign ytelse mot din nåværende lokale modell på samme prompt-sett. Ikke stol blindt på PrismMLs benchmarks — kjør dine egne evals.
Vurder om du trenger GPU overhodet: en 8B-modell som kjører raskt nok på CPU endrer kost-regnestykket for lokale agenter.

Bakgrunn

Ternær kvantisering ble popularisert av Microsofts BitNet-papir i 2024. PrismML, et Caltech-spinoff med støtte fra Khosla Ventures og Google, bygger en produktlinje rundt ideen: først 1-bits Bonsai, nå 1,58-bits-varianten som ligger et hakk oppover på Pareto-kurven mellom størrelse og kvalitet.