62,5 mot 32,8: det er Zamba2-VL-1.2B sin poengsum på telle-benchmarken PixMoCount sammenlignet med like store InternVL3.5-1B. Zyphra slapp 12. juni modellfamilien i tre størrelser, 1,2B, 2,7B og 7B parametere, alle bygget på Zamba2-ryggraden som kombinerer Mamba2 state-space-lag med noen få delte transformer-blokker.
Forskjellen fra vanlige visjon-språkmodeller ligger i arkitekturen. Der rene transformer-modeller får en KV-cache som vokser kvadratisk med sekvenslengden, kjører Mamba2-lagene i lineær tid med en tilstand av fast størrelse. Et enkelt høyoppløst bilde kan legge til flere tusen vision-tokens, og et kort videoklipp titusener, så besparelsen blir stor for multimodale input. På en prefill med 32k tokens slo Zamba2-VL alle transformer-modellene i sammenligningen på poeng mot TTFT, med et latensgap på minst en størrelsesorden.
Modellen er ikke best på alt. Den henger etter større baselinjer på kunnskapstunge oppgaver som MMMU og MathVista, men holder stand på dokumentforståelse (DocVQA 90,9 for 2,7B-modellen) og er sterkest på telling. Effektivitetsfordelen er størst på 1,2B og 2,7B, nettopp størrelsene du vil kjøre lokalt eller på edge. Modellene er åpne, trent på 100 milliarder tokens, og bruker Qwen2.5-VLs vision-encoder med Mistrals tokenizer.
Hva bør du gjøre?
- Test Zamba2-VL der TTFT er flaskehalsen, som sanntids-OCR, dokumentparsing eller bildechat på begrenset maskinvare.
- Velg 1,2B eller 2,7B for lokale deployments, der state-space-fordelen er størst og 7B sjelden er bryet verdt på edge.
- Ikke regn med modellen på kunnskapstung resonnering, som MMMU-type oppgaver der større transformer-modeller fortsatt leder.