Unsloth slipper Anthropic-kompatibel API for lokale Qwen og Gemma

«Self-healing tool calling reduserer ødelagte eller feilformede tool-kall med 50 prosent.» — Unsloth, dokumentasjon

Endepunktet er beskrevet i Unsloths offisielle dokumentasjon. Nøkkelen er at det snakker Anthropics «/v1/messages»-protokoll. Setter du miljøvariabelen ANTHROPIC_BASE_URL mot ditt lokale Unsloth-instans, tror Claude Code at den snakker med Anthropic. OpenAI Codex peker mot samme prosess på port 8001 med en OpenAI-kompatibel rute. Du kjører altså de samme agentverktøyene mot egen GPU uten å bytte klient.

I tillegg til ren inferens kommer agent-funksjonalitet i selve API-et: sandkasset Bash- og Python-eksekvering, og et web-søk som faktisk laster ned og parser sider i stedet for å lene seg på snippet-tekst. For GGUF-modeller justerer API-et automatisk parametre som temperature og top-k.

For norske utviklere som har eksperimentert med Qwen3.6-35B-A3B-GGUF lokalt, er dette en konkret bro fra Hugging Face-vekter til Claude Codes terminal-UX. Du beholder agentens tool-løkker og terminal-integrasjon, men flytter inferens til hjemmemaskinen. Det betyr ingen per-token-kostnad, ingen kontekstvindu-grenser fra leverandør, og ingen eksponering av kildekode mot Anthropic eller OpenAI.

Begrensningene er reelle. Et 35B-MoE krever fortsatt betydelig VRAM, web-søket og kode-sandkassen står og faller på din egen isolering, og «self-healing»-mekanismen er ikke konfigurerbar. Hvis du kjører eksponerte instanser, må du sandboxe Bash-kallene selv.

Hva bør du gjøre?

Last ned unsloth/Qwen3.6-35B-A3B-GGUF fra Hugging Face og start API-serveren lokalt
Sett ANTHROPIC_BASE_URL mot ditt eget endepunkt før du starter Claude Code
Test med en liten oppgave først, og verifiser at tool-kall faktisk treffer din lokale modell før du kjører noe sensitivt