Gemini Robotics-ER 1.6: DeepMind oppgraderer romlig KI-resonnering for roboter

10 prosent bedre risikoidentifisering i video sammenlignet med Gemini 3.0 Flash. Google DeepMind har lansert Gemini Robotics-ER 1.6, en oppgradering av selskapets resonneringsfokuserte robotikkmodell, ifølge DeepMinds offisielle blogg. Modellen er tilgjengelig for utviklere via Gemini API og Google AI Studio med en medfølgende Colab-notebook.

Oppgraderingen forbedrer tre kjernekapabiliteter: romlig resonnering med presis objektdeteksjon og telling, suksessdeteksjon som avgjør om en robot har fullført en oppgave, og instrumentavlesning — en ny funksjon utviklet i samarbeid med Boston Dynamics for å lese analoge målere og sikteglass i industrianlegg.

«By enhancing spatial reasoning and multi-view understanding, we are bringing a new level of autonomy to the next generation of physical agents» — Google DeepMind

Modellen fungerer som et høynivå-resonneringssjikt for roboter og kan kalle verktøy som Google Search, vision-language-action-modeller (VLAer) og tredjepartsfunksjoner. Den viser forbedringer over både Gemini Robotics-ER 1.5 og Gemini 3.0 Flash på romlige og fysiske resonneringsoppgaver. Sikkerhetsmodellen er også oppgradert med 6 % bedre risikoidentifisering i tekst og 10 % bedre i video sammenlignet med Gemini 3.0 Flash.

Hva bør du gjøre?

Sjekk Gemini API-dokumentasjonen og Colab-notebooken hvis du jobber med robotikk eller industriell visuell inspeksjon
Vurder modellen for applikasjoner som krever romlig resonnering — objekttelling, gripeplanlegging eller oppgavevalidering fungerer uten ekstra trening