Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Third News · 7.5., 08:18 · modell

Zyphras ZAYA1-8B aktiverer mindre enn 1 milliard parametre per token og matcher 119B-modeller

SYNOPSIS_GENERERT

Zyphra slapp 6. mai ZAYA1-8B, en åpen MoE-modell med 8 milliarder totale parametre, men under 1 milliard aktive per token. Selskapet hevder den matcher Mistral-Small-4-119B og Nemotron-3-Nano-30B-A3B på resonnement, matematikk og kode.

«ZAYA1-8B viser hva som er mulig når arkitektur, pretrening og forsterkningslæring er ko-designet for å maksimere intelligens per parameter og per FLOP.» — Krithik Puthalath, grunnlegger og CEO, Zyphra

Startupen Zyphra annonserte 6. mai sin nye mixture-of-experts-modell med 8 milliarder totale parametre, men færre enn én milliard aktive per token. Tallene er fra Zyphras egen pressemelding gjengitt av Third News. Selskapet hevder modellen matcher eller slår Nemotron-3-Nano-30B-A3B og Mistral-Small-4-119B på resonnement-, matte- og kode-benchmarks, og holder mål mot første generasjon frontier-modeller som DeepSeek-R1-0528 og Gemini-2.5-Pro.

Det tekniske særtrekket er Markovian RSA, en test-time compute-metode som kombinerer parallell trace-generering med fast-lengde context chunking. Resultatet er ubegrenset resonnement med konstant minneforbruk. Zyphra bruker også egen Compressed Convolutional Attention (CCA) og en MLP-basert ekspert-router som angivelig er mer stabil enn lineære varianter.

Treningen ble kjørt på AMD Instinct MI300X-klynger med Pensando Pollara-nettverk, ikke NVIDIA. Post-trening er en fire-stegs RL-kaskade: warm-up på matte og puzzles, vanskelighetsadaptiv læring via RLVE-Gym, storskala RL for matte og kode, og til slutt behavioral RL for chat-kvalitet.

For deg som selvhoster er hovedpoenget enkelt: 8B totalvekter, under 1B aktive. Det betyr at en 16-24 GB GPU bør kunne kjøre den raskt etter kvantisering, samtidig som du får benchmark-tall som tradisjonelt har krevd 30B+ tette modeller. Apache 2.0-lisensen gjør den fri å bygge på.

Hva bør du gjøre?

  1. Hent vektene fra Hugging Face og test ZAYA1-8B mot din nåværende lokale stack (Mistral, Qwen, DeepSeek). Mål både kvalitet og tokens/sekund på din egen GPU.
  2. Test serverless-endepunktet på cloud.zyphra.com først hvis du vil benchmarke kvalitet før du investerer tid i lokal kvantisering.
  3. Hvis du kjører kode-agenter, kjør HumanEval eller SWE-bench-Lite mot ZAYA1 og sammenlign mot Qwen 2.5-Coder. Selskapets egne tall trenger uavhengig verifikasjon.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN