Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Google DeepMind Blog · 15.4., 20:36 · verktøy

Gemini Robotics-ER 1.6: DeepMind oppgraderer romlig KI-resonnering for roboter

SYNOPSIS_GENERERT

Google DeepMind lanserer Gemini Robotics-ER 1.6 med forbedret romlig resonnering, suksessdeteksjon og instrumentavlesning via Gemini API.

10 prosent bedre risikoidentifisering i video sammenlignet med Gemini 3.0 Flash. Google DeepMind har lansert Gemini Robotics-ER 1.6, en oppgradering av selskapets resonneringsfokuserte robotikkmodell, ifølge DeepMinds offisielle blogg. Modellen er tilgjengelig for utviklere via Gemini API og Google AI Studio med en medfølgende Colab-notebook.

Oppgraderingen forbedrer tre kjernekapabiliteter: romlig resonnering med presis objektdeteksjon og telling, suksessdeteksjon som avgjør om en robot har fullført en oppgave, og instrumentavlesning — en ny funksjon utviklet i samarbeid med Boston Dynamics for å lese analoge målere og sikteglass i industrianlegg.

«By enhancing spatial reasoning and multi-view understanding, we are bringing a new level of autonomy to the next generation of physical agents» — Google DeepMind

Modellen fungerer som et høynivå-resonneringssjikt for roboter og kan kalle verktøy som Google Search, vision-language-action-modeller (VLAer) og tredjepartsfunksjoner. Den viser forbedringer over både Gemini Robotics-ER 1.5 og Gemini 3.0 Flash på romlige og fysiske resonneringsoppgaver. Sikkerhetsmodellen er også oppgradert med 6 % bedre risikoidentifisering i tekst og 10 % bedre i video sammenlignet med Gemini 3.0 Flash.

Hva bør du gjøre?

  1. Sjekk Gemini API-dokumentasjonen og Colab-notebooken hvis du jobber med robotikk eller industriell visuell inspeksjon
  2. Vurder modellen for applikasjoner som krever romlig resonnering — objekttelling, gripeplanlegging eller oppgavevalidering fungerer uten ekstra trening

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN