Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
PrismML · 21.4., 04:15 · forskning

Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU

SYNOPSIS_GENERERT

PrismML slipper Ternary Bonsai, en modellfamilie på 1,58 bits per vekt som kjører 8B-modellen på 1,75 GB minne og 82 tokens/sek på Apple M4 Pro. Åpent under Apache 2.0 og tilgjengelig via MLX.

PrismML lanserte 21. april Ternary Bonsai, en familie på 1,7B, 4B og 8B parametere der hver vekt lagres som ett av tre verdier: -1, 0 eller +1. Det gir 1,58 bits per vekt og et minnefotavtrykk rundt 9x mindre enn tilsvarende 16-bits modeller, uten høyere-presisjon «escape hatches» noe sted i arkitekturen.

Tallene er konkrete: 8B-varianten scorer 75,5 i gjennomsnitt over benchmarks som MMLU Redux, GSM8K, HumanEval+ og BFCLv3, mot 70,5 for den eldre 1-bits Bonsai 8B. På samme maskinvare er den 5x raskere enn en 16-bits 8B-modell, med 3-4x bedre energieffektivitet. På iPhone 17 Pro Max leverer den 27 tokens/sek.

«Ternary Bonsai extends the Pareto frontier further left. Where a small increase in memory can justify a substantially stronger model, it offers an alternative tradeoff.» — PrismML, lanseringsposten

Som referanse: Qwen3 8B krever 16,38 GB mot Ternary Bonsai 8Bs 1,75 GB. PrismML hevder de slår alt annet i parameterklassen sin bortsett fra nettopp Qwen3 8B. Vektene er lagt ut under Apache 2.0 og kjører natively på Apple-enheter via MLX.

>_ NØKKELTALL
1,58 bits per vekt via ternær kvantisering {-1, 0, +1}
1,75 GB minne for 8B-modellen, mot ~16 GB for 16-bits ekvivalent
82 tokens/sek på M4 Pro, 27 tokens/sek på iPhone 17 Pro Max
75,5 snittscore på benchmarks for 8B-varianten

Hva bør du gjøre?

  1. Last ned 1,7B-varianten fra Apache 2.0-drop hvis du allerede bruker MLX på Mac — den er minste inngangen for å teste hvordan 1,58-bits oppfører seg mot din workload.
  2. Sammenlign ytelse mot din nåværende lokale modell på samme prompt-sett. Ikke stol blindt på PrismMLs benchmarks — kjør dine egne evals.
  3. Vurder om du trenger GPU overhodet: en 8B-modell som kjører raskt nok på CPU endrer kost-regnestykket for lokale agenter.

Bakgrunn

Ternær kvantisering ble popularisert av Microsofts BitNet-papir i 2024. PrismML, et Caltech-spinoff med støtte fra Khosla Ventures og Google, bygger en produktlinje rundt ideen: først 1-bits Bonsai, nå 1,58-bits-varianten som ligger et hakk oppover på Pareto-kurven mellom størrelse og kvalitet.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN