Guide til å bygge og kjøre toppmoderne språkmodeller lokalt

Repoet skisserer to konkrete oppsett. Budsjettvarianten er to RTX 3090 med 48 GB VRAM til sammen, nok til å kjøre Qwen3.6-27B lokalt. I andre enden står en rigg med fire RTX PRO 6000 Blackwell, 96 GB hver og 384 GB totalt, på en AMD EPYC-plattform som kjører en 594-milliarders GLM-5.2-modell på rundt 80 tokens i sekundet med 240k kontekst.

Det nyttige er ikke drømmeriggene, men detaljene de fleste guider hopper over: PCIe-bifurkering, IOMMU- og ACS-override-kjerneparametere, strømbegrensning til 350 W per kort og P2P-optimalisering mellom GPU-ene. Hvert oppsett kommer med ferdige konfigurasjoner i egne runners/-mapper, så du slipper å gjette deg fram.

>_ NØKKELTALL

2x RTX 3090

budsjettoppsett, 48 GB VRAM, ~2 000 dollar

4x RTX PRO 6000

384 GB VRAM, ~40 000 dollar

~80 t/s

GLM-5.2-594B ved 240k kontekst

Vil du bare teste vann er dette overkill. Men bygger du en selvhostet inferensserver som skal tåle stor kontekst og flere brukere, er det et av de mest gjennomarbeidede referanseoppsettene som ligger åpent ute.