Gemini 3.5 Flash: 300 tokens i sekundet med frontier-ytelse og Omni do-anything-modell

Gemini 3.5 Flash rulles ut i Googles produkter fra i dag og posisjoneres som modellen som endelig gjør komplekse agentiske oppgaver lønnsomme i skala, ifølge Ars Technica 19. mai. Tulsee Doshi, senior director for Gemini, sier modellen tilbyr frontier-nivå intelligens samtidig som den er effektiv nok til å holde lange agentkjøringer innenfor budsjett.

Hastigheten er kjernen i argumentet. Gemini 3.5 Flash produserer nær 300 tokens i sekundet, mens 3.1 Pro leverer benchmark-tall i samme klasse på under en fjerdedel av hastigheten. For agenter som må kjøre over lengre tid for å løse problemer, betyr det at samme oppgave kan fullføres uten å brenne like mange tokens.

«Med post-trening begynner vi å låse opp verdien av tilbakemeldingen vi får fra brukere, for eksempel fra Antigravity. Det er det som slår ut i kodeytelse og verktøybruk.» — Tulsee Doshi, senior director, Gemini

Google annonserte også «Omni», beskrevet som en do-anything-modell, men selskapet ga få detaljer om arkitektur eller pris i den første kommunikasjonen. Slippet er del av I/O 2026-pakken som også inkluderer relanseringen av Antigravity som agent-suite.

Hva bør du gjøre?

Bytt agent-loops fra Pro til Flash der hastighet teller. Hvis du har Gemini-baserte agenter som kjører lange kjeder, sammenlign 3.5 Flash mot 3.1 Pro på din egen task.
Vent på Omni-detaljer før du migrerer. Google har ikke offentliggjort kontekstvindu, prising eller modaliteter ennå.
Bygg inn tokens/sekund-måling i din egen agent-evaluering. Med en modell som leverer 4x speedup uten kvalitetstap blir hastighet en reell konkurransefaktor.