OpenVLA 2 lansert med 30 % bedre task-generalisering og åpne vekter for humanoide roboter

OpenVLA-konsortiet annonserte denne uken OpenVLA 2, en stor oppdatering av deres åpne Vision-Language-Action-modell rettet mot humanoide roboter, ifølge RobotWale News. Modellen er bygd av et samarbeid mellom KI-forskere og robotikkingeniører, og forsøker å redusere det velkjente «sim-to-real»-gapet som har holdt autonome roboter tilbake i ustrukturerte miljøer.

Arkitekturen er en oppdatert transformer som tolker visuell input og utfører fysiske handlinger med høyere presisjon. Tre tekniske endringer skiller den fra OpenVLA 1.0:

Adaptive Reasoning lar roboten justere handlingspolicyen basert på sanntids visuell tilbakemelding.
Multi-Robot Coordination støtter flere roboter som deler én språkmodell for samarbeidsoppgaver.
Low-Latency Inference er optimalisert for edge, så beslutninger kan tas på lokal maskinvare uten tung skyavhengighet.

Vektene forblir åpen kildekode, noe som betyr at du kan finjustere modellen på egne datasett uten lisensavgift. RobotWale peker spesielt på at det åpner for kostnadseffektiv automasjon i markeder som India, der startups kan bygge på toppen uten å betale enterprise-priser. Kommersielle støttepakker for integrasjon prises separat.

30 %-tallet er det viktigste å huske, men også det som krever mest skepsis. RobotWale oppgir ikke hvilke benchmarks tallet er målt mot, og «task-generalisering» kan dekke alt fra plukk-og-plasser til kompleks montering. Sjekk release notes før du baserer en produktbeslutning på det.

Hva bør du gjøre?

Last ned vektene og test mot din egen oppgavetype hvis du jobber med robotikk eller embodied AI. Generalisering er ikke ett tall, det er en distribusjon.
Vurder Low-Latency Inference-modusen hvis du har edge-maskinvare som Jetson eller en lokal GPU. Det er der OpenVLA 2 utfordrer skybaserte VLA-er økonomisk.
Hold benchmarks-claims ved armlengde til OpenVLA-teamet publiserer en sammenliknings-paper med kjente baselines som RT-2 eller Octo.