Repoet skisserer to konkrete oppsett. Budsjettvarianten er to RTX 3090 med 48 GB VRAM til sammen, nok til å kjøre Qwen3.6-27B lokalt. I andre enden står en rigg med fire RTX PRO 6000 Blackwell, 96 GB hver og 384 GB totalt, på en AMD EPYC-plattform som kjører en 594-milliarders GLM-5.2-modell på rundt 80 tokens i sekundet med 240k kontekst.
Det nyttige er ikke drømmeriggene, men detaljene de fleste guider hopper over: PCIe-bifurkering, IOMMU- og ACS-override-kjerneparametere, strømbegrensning til 350 W per kort og P2P-optimalisering mellom GPU-ene. Hvert oppsett kommer med ferdige konfigurasjoner i egne runners/-mapper, så du slipper å gjette deg fram.
Vil du bare teste vann er dette overkill. Men bygger du en selvhostet inferensserver som skal tåle stor kontekst og flere brukere, er det et av de mest gjennomarbeidede referanseoppsettene som ligger åpent ute.