Poolsides Laguna XS.2 slår GPT-4o på SWE-bench med 3B aktive parametere

Poolside ble grunnlagt i San Francisco i 2023 og har holdt en lav profil mens de bygget kodemodeller for offentlig sektor og luftgappede miljøer. 5. mai 2026 slapp de fire ting samtidig: Laguna M.1 (225 mrd. parametere, lukket), Laguna XS.2 (33 mrd. parametere MoE, åpen), terminal-agenten Pool og det mobil-vennlige web-utviklingsmiljøet Shimmer.

Laguna XS.2 bruker Mixture of Experts-arkitektur som aktiverer kun 3 mrd. parametere per token. Den kombinerer Sliding Window Attention (vindu på 512 tokens, 30 av 40 lag) med globale attention-lag i forholdet 3:1, og lagrer KV-cachen i FP8. Resultatet er et 131 072-tokens kontekstvindu som passer i én GPU eller på en Mac med 36 GB unified memory via Ollama med MLX.

«Vesten trenger sterke åpne vekt-modeller» — Poolsides blogginnlegg om Laguna XS.2

Benchmark-tallene gir kontekst for hva «3B aktiv» faktisk betyr i praksis: 68,2 % på SWE-bench Verified, 62,4 % på SWE-bench Multilingual, 44,5 % på SWE-bench Pro og 30,1 % på Terminal-Bench 2.0. GPT-4o ligger på rundt 49 % på SWE-bench Verified med vesentlig mer aktiv compute. Qwen2.5-Coder 32B, et populært åpent alternativ, scorer rundt 50 % på samme test.

Apache 2.0-lisensen gir reell handlefrihet: du kan finjustere, kvantisere til GGUF, distribuere kommersielt og bygge produkter på vektene uten royalty. Det er en strammere lisens enn Llama-familiens custom-vilkår og betydelig friere enn lisenser med klausuler om ikke-konkurranse.

Hva bør du gjøre?

Test lokalt med Ollama: ollama launch pool --model laguna-xs.2 på en Mac med 36 GB unified memory eller en NVIDIA-GPU med tilstrekkelig VRAM.
Sammenlign mot din egen stack: Hvis du i dag betaler for en lukket koding-API, kjør Laguna XS.2 mot din egen test-suite før du vurderer migrering. SWE-bench-tall sier ikke alt om akkurat ditt domene.
Vurder Pool-agenten hvis du allerede bruker Agent Client Protocol (ACP). Den kobles til Zed og JetBrains uten ekstra konfigurasjon.

Bakgrunn

Poolsides tese er at programvareutvikling er det beste proxy-målet for generell intelligens. Koding krever planlegging over lange horisonter, abstraksjon og iterativ debugging. Den filosofien forklarer hvorfor de trener med asynkron on-policy reinforcement learning i sandboxede containere der modellen faktisk må kjøre tester og få feedback på om koden kompilerer.