Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub (cactus-compute) · 13.5., 12:23 · modell

Needle: 26M-modell distillert fra Gemini 3.1 kan finjusteres lokalt på Mac og PC

SYNOPSIS_GENERERT

Cactus Compute har distillert Gemini 3.1 til en 26M-parameter funksjonskall-modell som kjører lokalt på Mac og PC med 6 000 token/s prefill, alt under MIT-lisens.

Gemini 3.1 har milliardvis av parametere og krever cloud-konto. Cactus Computes nye Needle har 26 millioner og kjører på Mac-en din uten nettverk i det hele tatt. Selskapet har destillert Gemini 3.1 ned til en arkitektur de kaller «Simple Attention Network»: åtte dekoderlag, RoPE, ZCRMSNorm og 8 192 token BPE-vokabular, og hele vektsettet er åpent under MIT på Cactus-Compute/needle.

Tallene som faktisk betyr noe for utviklere: 6 000 token/s prefill og 1 200 token/s dekoding. Det er raskt nok til at funksjons­kall returneres på under et halvt sekund selv på utstyr uten dedikert NPU. Pretrening tok 200 milliarder tokens på 16 TPU v6e over 27 timer; post-trening på single-shot funksjons­kall var 2 milliarder tokens på 45 minutter.

«Needle er et eksperiment for å redefinere ørliten KI for forbruker­enheter: mobiler, klokker, briller.» — Henry Ndubuaku, Cactus Compute

Cactus Compute er ærlige om begrensningene. Modellen slår FunctionGemma-270m, Qwen-0.6B, Granite-350m og LFM2.5-350m på single-shot funksjons­kall, men de samme konkurrentene er bredere. De holder samtale­tråden over flere turer der Needle bare gjør én. Repoet inkluderer både needle playground (web-UI for finjustering på dine egne verktøy) og needle finetune data.jsonl for CLI-bruk, så terskelen for å trene Needle på din egen agent-stack er lav.

>_ NØKKELTALL
26M: Parametere totalt, mot flere milliarder hos Gemini 3.1
6 000: Token/s prefill på laptop
1 200: Token/s dekoding på laptop
45 min: Tid post-trening tok på 2 mrd. tokens
502: HN-poeng 13. mai (nr. 2 på forsiden)

Hva bør du gjøre?

  1. Klon repoet og kjør needle playground for å auto-laste ned vekter og åpne web-UI på localhost:7860 hvor du kan teste på dine egne verktøy­definisjoner.
  2. Finjuster på dine egne tools før produksjons­bruk. README advarer eksplisitt om at små modeller «kan være lunefulle», så bygg din egen evaluering før du erstatter en cloud-modell.
  3. Vurder Needle for edge-kontekster som voice assistant på en Raspberry Pi, klokke-app eller offline agent der latens og personvern teller mer enn bred samtale­evne.

Bakgrunn

Funksjons­kalling i KI-agenter betyr at modellen ser brukerens spørsmål, velger ett av flere verktøy og returnerer et strukturert JSON-kall. Det er den vanligste byggesteinen i agent-stacks i 2026. Tradisjonelt har dette krevd 7B+ modeller eller en cloud-API, fordi mindre modeller har slitt med å produsere gyldig JSON konsistent. Distillasjon, der en mindre modell trenes til å imitere en mye større, har endret regnestykket: ved å gi opp generell samtale­evne kan du presse spesialisert kapasitet inn i en brøkdel av parametrene. Needle er et tydelig eksempel på prinsippet: 26 millioner parametere, single-shot bruk, men nok presisjon til å være nyttig akkurat for jobben den er trent på.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN