På INT4 får de 33 milliardene plass i omtrent 16 til 20 GB VRAM, innen rekkevidde for et RTX 4090 eller en Mac med 36 GB delt minne. Poolside åpen-kildet også DFlash-speculatorer, én for hver kvantisering, som ifølge labben omtrent dobler antall tokens i sekundet lokalt uten å endre kvaliteten. Du skrur dem på i SGLang med flagget --speculative-algorithm DFLASH, og vLLM støttes også. På SWE-bench Multilingual oppgir Poolside 63,1 prosent, opp 5,4 prosentpoeng fra forgjengeren, men tallene er kjørt med labbens eget testoppsett og sammenligningene hentet fra andre leverandørers eget materiell. Vil du vite om modellen holder for ditt arbeid, er rådet å måle på dine egne oppgaver framfor å stole på ledertavlen. Lisensen er OpenMDW-1.1, en ny tillatelig lisens for modellvekter som gir juridiske avdelinger renere fotfeste enn Apache 2.0.
Poolside Laguna XS 2.1: gratis kodemodell med DFlash som kjører på én GPU
SYNOPSIS_GENERERT
Poolside har til nå solgt agentisk koding gjennom sky og bedriftsavtaler. Nå legger San Francisco-labben Laguna XS 2.1 gratis ut på Hugging Face, med et gratis API-nivå på OpenRouter på kjøpet. Modellen har 33 milliarder parametere totalt, men aktiverer bare 3 milliarder per token via en Mixture-of-Experts-arkitektur, og får dermed plass på én forbruker-GPU. Forgjengeren XS.2 pensjoneres fra OpenRouter 9. juli, så kjører du den allerede, har du bare noen dager på å bytte.
KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN