Google gjør Gemini 3.1 Flash-Lite GA: 60 prosent lavere kost enn tenketier-modeller, p95 under 2 sekunder

«Integreringen av Gemini 3.1 Flash-Lite har endret responsen i IDE-assistenten og Junie-agenten vår. Balansen mellom høy intelligens og minimal latens gjør modellen perfekt for sanntids utviklerstøtte.» — Vladislav Tankov, Director of AI hos JetBrains

JetBrains er en av referansekundene Google viser frem ved GA-lanseringen, sammen med Gladly, Ramp, AlphaSense, Astrocade, OffDeal og krea.ai. Modellen er rettet mot agentiske oppgaver som verktøy-kall og orkestrering, der prising og latens betyr mer enn maks intelligens.

Den tydeligste praksis-rapporten kommer fra Gladly, som driver kundeservice-agenter for store retail-merker. Selskapet kjører millioner av kundeinteraksjoner i uken på SMS, WhatsApp og Instagram, og målte rundt 60 prosent lavere kost enn sammenlignbare tenketier-modeller på samme tokenmix. P95-latens ligger på rundt 1,8 sekunder for full svargenerering, sub-sekund p95 for klassifisering og verktøy-kall, og en suksessrate på cirka 99,6 prosent under tunge samtidige laster.

For utviklere som bygger agenter er regnestykket konkret. Hvis du orkestrerer mange små verktøy-kall og bruker en stor modell til hvert eneste, betaler du for resonnement du ikke trenger. Flash-Lite er Googles forsøk på å gjøre det billigere å la en modell ta tre-fire steg før den eskalerer til Pro eller en tenketier-modell.

Hva bør du gjøre?

Plasser Flash-Lite i orkestreringslaget. La den klassifisere intent, plukke verktøy og rute samtaler, men eskaler til en sterkere modell når oppgaven krever resonnement.
Mål kost per ferdig oppgave, ikke per token. En tenketier-modell som løser oppgaven i færre runder, kan slå Flash-Lite på totalkostnad selv om token-prisen er høyere.
Test mot dine egne tokenmix-er. Gladlys 60 prosent stammer fra deres egen miks av input/output. Kjør samme prompt-suite mot begge modellene før du flytter produksjonstrafikk.