Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub (jamesob/local-llm) · 5T SIDEN · analyse

Guide til å bygge og kjøre toppmoderne språkmodeller lokalt

SYNOPSIS_GENERERT

De fleste oppskrifter på lokale modeller stopper ved «installer Ollama og last ned en GGUF». James O'Beirnes «local-llm»-repo på GitHub går lenger, og dokumenterer hele veien fra maskinvarevalg til BIOS-innstillinger og vLLM-oppsett, for alt fra en rigg med to brukte RTX 3090 til et monster med fire RTX PRO 6000 Blackwell.

Repoet skisserer to konkrete oppsett. Budsjettvarianten er to RTX 3090 med 48 GB VRAM til sammen, nok til å kjøre Qwen3.6-27B lokalt. I andre enden står en rigg med fire RTX PRO 6000 Blackwell, 96 GB hver og 384 GB totalt, på en AMD EPYC-plattform som kjører en 594-milliarders GLM-5.2-modell på rundt 80 tokens i sekundet med 240k kontekst.

Det nyttige er ikke drømmeriggene, men detaljene de fleste guider hopper over: PCIe-bifurkering, IOMMU- og ACS-override-kjerneparametere, strømbegrensning til 350 W per kort og P2P-optimalisering mellom GPU-ene. Hvert oppsett kommer med ferdige konfigurasjoner i egne runners/-mapper, så du slipper å gjette deg fram.

>_ NØKKELTALL
2x RTX 3090
budsjettoppsett, 48 GB VRAM, ~2 000 dollar
4x RTX PRO 6000
384 GB VRAM, ~40 000 dollar
~80 t/s
GLM-5.2-594B ved 240k kontekst

Vil du bare teste vann er dette overkill. Men bygger du en selvhostet inferensserver som skal tåle stor kontekst og flere brukere, er det et av de mest gjennomarbeidede referanseoppsettene som ligger åpent ute.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN