Gemini 3.1 har milliardvis av parametere og krever cloud-konto. Cactus Computes nye Needle har 26 millioner og kjører på Mac-en din uten nettverk i det hele tatt. Selskapet har destillert Gemini 3.1 ned til en arkitektur de kaller «Simple Attention Network»: åtte dekoderlag, RoPE, ZCRMSNorm og 8 192 token BPE-vokabular, og hele vektsettet er åpent under MIT på Cactus-Compute/needle.
Tallene som faktisk betyr noe for utviklere: 6 000 token/s prefill og 1 200 token/s dekoding. Det er raskt nok til at funksjonskall returneres på under et halvt sekund selv på utstyr uten dedikert NPU. Pretrening tok 200 milliarder tokens på 16 TPU v6e over 27 timer; post-trening på single-shot funksjonskall var 2 milliarder tokens på 45 minutter.
«Needle er et eksperiment for å redefinere ørliten KI for forbrukerenheter: mobiler, klokker, briller.» — Henry Ndubuaku, Cactus Compute
Cactus Compute er ærlige om begrensningene. Modellen slår FunctionGemma-270m, Qwen-0.6B, Granite-350m og LFM2.5-350m på single-shot funksjonskall, men de samme konkurrentene er bredere. De holder samtaletråden over flere turer der Needle bare gjør én. Repoet inkluderer både needle playground (web-UI for finjustering på dine egne verktøy) og needle finetune data.jsonl for CLI-bruk, så terskelen for å trene Needle på din egen agent-stack er lav.
Hva bør du gjøre?
- Klon repoet og kjør
needle playgroundfor å auto-laste ned vekter og åpne web-UI pålocalhost:7860hvor du kan teste på dine egne verktøydefinisjoner. - Finjuster på dine egne tools før produksjonsbruk. README advarer eksplisitt om at små modeller «kan være lunefulle», så bygg din egen evaluering før du erstatter en cloud-modell.
- Vurder Needle for edge-kontekster som voice assistant på en Raspberry Pi, klokke-app eller offline agent der latens og personvern teller mer enn bred samtaleevne.
Bakgrunn
Funksjonskalling i KI-agenter betyr at modellen ser brukerens spørsmål, velger ett av flere verktøy og returnerer et strukturert JSON-kall. Det er den vanligste byggesteinen i agent-stacks i 2026. Tradisjonelt har dette krevd 7B+ modeller eller en cloud-API, fordi mindre modeller har slitt med å produsere gyldig JSON konsistent. Distillasjon, der en mindre modell trenes til å imitere en mye større, har endret regnestykket: ved å gi opp generell samtaleevne kan du presse spesialisert kapasitet inn i en brøkdel av parametrene. Needle er et tydelig eksempel på prinsippet: 26 millioner parametere, single-shot bruk, men nok presisjon til å være nyttig akkurat for jobben den er trent på.