«Self-healing tool calling reduserer ødelagte eller feilformede tool-kall med 50 prosent.» — Unsloth, dokumentasjon
Endepunktet er beskrevet i Unsloths offisielle dokumentasjon. Nøkkelen er at det snakker Anthropics «/v1/messages»-protokoll. Setter du miljøvariabelen ANTHROPIC_BASE_URL mot ditt lokale Unsloth-instans, tror Claude Code at den snakker med Anthropic. OpenAI Codex peker mot samme prosess på port 8001 med en OpenAI-kompatibel rute. Du kjører altså de samme agentverktøyene mot egen GPU uten å bytte klient.
I tillegg til ren inferens kommer agent-funksjonalitet i selve API-et: sandkasset Bash- og Python-eksekvering, og et web-søk som faktisk laster ned og parser sider i stedet for å lene seg på snippet-tekst. For GGUF-modeller justerer API-et automatisk parametre som temperature og top-k.
For norske utviklere som har eksperimentert med Qwen3.6-35B-A3B-GGUF lokalt, er dette en konkret bro fra Hugging Face-vekter til Claude Codes terminal-UX. Du beholder agentens tool-løkker og terminal-integrasjon, men flytter inferens til hjemmemaskinen. Det betyr ingen per-token-kostnad, ingen kontekstvindu-grenser fra leverandør, og ingen eksponering av kildekode mot Anthropic eller OpenAI.
Begrensningene er reelle. Et 35B-MoE krever fortsatt betydelig VRAM, web-søket og kode-sandkassen står og faller på din egen isolering, og «self-healing»-mekanismen er ikke konfigurerbar. Hvis du kjører eksponerte instanser, må du sandboxe Bash-kallene selv.
Hva bør du gjøre?
- Last ned
unsloth/Qwen3.6-35B-A3B-GGUFfra Hugging Face og start API-serveren lokalt - Sett
ANTHROPIC_BASE_URLmot ditt eget endepunkt før du starter Claude Code - Test med en liten oppgave først, og verifiser at tool-kall faktisk treffer din lokale modell før du kjører noe sensitivt