Zyphras ZAYA1-8B aktiverer mindre enn 1 milliard parametre per token og matcher 119B-modeller

«ZAYA1-8B viser hva som er mulig når arkitektur, pretrening og forsterkningslæring er ko-designet for å maksimere intelligens per parameter og per FLOP.» — Krithik Puthalath, grunnlegger og CEO, Zyphra

Startupen Zyphra annonserte 6. mai sin nye mixture-of-experts-modell med 8 milliarder totale parametre, men færre enn én milliard aktive per token. Tallene er fra Zyphras egen pressemelding gjengitt av Third News. Selskapet hevder modellen matcher eller slår Nemotron-3-Nano-30B-A3B og Mistral-Small-4-119B på resonnement-, matte- og kode-benchmarks, og holder mål mot første generasjon frontier-modeller som DeepSeek-R1-0528 og Gemini-2.5-Pro.

Det tekniske særtrekket er Markovian RSA, en test-time compute-metode som kombinerer parallell trace-generering med fast-lengde context chunking. Resultatet er ubegrenset resonnement med konstant minneforbruk. Zyphra bruker også egen Compressed Convolutional Attention (CCA) og en MLP-basert ekspert-router som angivelig er mer stabil enn lineære varianter.

Treningen ble kjørt på AMD Instinct MI300X-klynger med Pensando Pollara-nettverk, ikke NVIDIA. Post-trening er en fire-stegs RL-kaskade: warm-up på matte og puzzles, vanskelighetsadaptiv læring via RLVE-Gym, storskala RL for matte og kode, og til slutt behavioral RL for chat-kvalitet.

For deg som selvhoster er hovedpoenget enkelt: 8B totalvekter, under 1B aktive. Det betyr at en 16-24 GB GPU bør kunne kjøre den raskt etter kvantisering, samtidig som du får benchmark-tall som tradisjonelt har krevd 30B+ tette modeller. Apache 2.0-lisensen gjør den fri å bygge på.

Hva bør du gjøre?

Hent vektene fra Hugging Face og test ZAYA1-8B mot din nåværende lokale stack (Mistral, Qwen, DeepSeek). Mål både kvalitet og tokens/sekund på din egen GPU.
Test serverless-endepunktet på cloud.zyphra.com først hvis du vil benchmarke kvalitet før du investerer tid i lokal kvantisering.
Hvis du kjører kode-agenter, kjør HumanEval eller SWE-bench-Lite mot ZAYA1 og sammenlign mot Qwen 2.5-Coder. Selskapets egne tall trenger uavhengig verifikasjon.