Bygg en offline KI-kodermaskin: full agentisk arbeidsflyt uten sky

«'Min KI vet dette' og 'min KI når en server som vet dette' er to veldig forskjellige setninger.» — Shmuel C., forfatter av «Project Hail Mary»-guiden

Ingeniøren bak guiden bruker et tankeeksperiment for å vise hvordan: tenk deg at du koder på et romskip der radiolinken til jorda er død, og ChatGPT, Claude, PyPI, npm og GitHub forsvinner samtidig. Svaret hans er en femdelt lokal stack som speiler skytjenestene du er avhengig av.

Stacken er konkret. Inferensmotoren er vLLM med en åpen toppmodell som Qwen3-Coder-480B, kjørt på en node med 8 NVIDIA H200 (1,1 TB samlet VRAM) i full FP16-presisjon. Oppå den sitter en agent-klient som Aider eller OpenCode, som gir modellen «hender» til å redigere filer, kjøre tester og committe. For oppslag bygger han en lokal vektor-database (Qdrant eller Milvus) med embeddings av hvert bibliotek i stacken, koblet til en reranker, så agenten finner riktig API-snutt i stedet for å gjette. Pakkene kommer fra lokale registerspeil (devpi for Python, Verdaccio for Node) sammen med pinnede lockfiler, og hele StackOverflow ligger som en 150 GB Kiwix-base han søker i lokalt når noe likevel må slås opp manuelt.

Kjerneproblemet stacken løser kaller forfatteren «the cutoff cliff»: en lokal modell er stødig på alt som lå fast da den ble trent, men går rett utfor stupet der API-er og biblioteker har endret seg etterpå. Lokale dokumenter gjør ikke modellen smartere enn den er, men de hindrer den i å hallusinere utdatert syntaks. Den viktigste lærdommen, som forfatteren oppsummerer som «index more, tune less», var at søkekvalitet ikke handlet om tunge embedding-modeller, men om noe binært: hadde han faktisk indeksert siden eller ikke.

Guiden er laget i samarbeid med Novita AI og bruker affiliate-lenker. Forfatteren bruker Novita som en «oppskytningsrampe» for å teste oppsettet mot åpne modeller over et OpenAI-kompatibelt endepunkt før alt flyttes til den frakoblede maskinen.

Hva bør du gjøre?

Start med modellserveren. Forfatteren er tydelig på at å sette opp vLLM og presse maks token-gjennomstrømning er den vanskeligste og viktigste delen. Får du den rask og stabil, er resten støttehjul.
Test oppsettet mot et OpenAI-kompatibelt sky-endepunkt først, så du kan verifisere RAG-kall, modellnavn og Aider-konfig før du fysisk trekker ut nettverkskabelen.
Kjør «zero-link-øvelsen»: plugg ut nettet på en blank maskin og se om du klarer å bygge hele arbeidsmiljøet fra bunnen. Det avslører hva du egentlig lener deg på.