LittleLamb: Multiverse komprimerer Qwen3-0.6B med 50 % og slår originalen på HLE

Multiverse Computing har lagt ut tre åpne modeller på Hugging Face: LittleLamb 0.3B (generell), 0.3B Tool-Calling (funksjonskall, agentflyt) og 0.3B Mobile (on-device). Alle tre er bygget fra Qwen3-0.6B og redusert med rundt 50 % via CompactifAI, som bruker tensor-nettverk inspirert av kvantefysikk.

Det interessante for deg som bygger lokalt: tradisjonell kvantisering på 95 % kompresjonsrate gir 20 til 30 % nøyaktighetstap. Multiverse hevder 2 til 3 % på samme nivå. Begge tekstmodellene slår både Qwen3-0.6B og Gemma 270M-klassen på HLE, ifølge selskapets egne tall.

«Vi har vist at kompresjon ikke krever å ofre intelligens eller kapabilitet. Denne familien viser at kompakte modeller kan gjøre langt mer enn lett chat, og kan kjøre i miljøer der tradisjonelle modeller er for store.» — Enrique Lizaso Olmos, CEO i Multiverse Computing

Alle tre støtter både engelsk og spansk samt to inferensmoduser: «thinking» for chain-of-thought, og rask modus for kort latens. Tool-Calling-varianten er fintunet for strukturert JSON, API-kall og kodeeksekvering — relevant hvis du bygger en agent som skal kjøre på en Raspberry Pi eller en bruker-laptop uten cloud-tilgang.

Hva bør du gjøre?

Last ned LittleLamb 0.3B Tool-Calling fra Hugging Face og test mot ditt eget agent-benchmark. Egne tall slår alltid leverandørens.
Sammenlign med Qwen3-0.6B på samme oppgave. Hvis Multiverses HLE-tall holder, sparer du halve VRAM-budsjettet.
For mobil: vent på CompactifAI-appen som kommer «i ukene fremover» hvis du vil ha en pakket runtime, ellers konverter selv via llama.cpp.