Gemini File Search blir multimodal: bilder, lyd og video kan indekseres direkte i RAG

Google annonserte oppdateringen på utviklerbloggen sin den 10. mai. Tidligere håndterte File Search-verktøyet bare tekstdokumenter. Nå indekseres bilder, lyd og video direkte ved hjelp av den nye Embedding 2-modellen, slik at agenten din kan slå opp et visuelt motiv beskrevet i naturlig språk uten å gå veien om filnavn eller manuelle tagger.

I tillegg kan du feste vilkårlige nøkkel-verdi-par som metadata på hver fil, for eksempel department: Legal eller status: Final, og filtrere på dem ved spørretid. Det er den klassiske RAG-flaskehalsen Google adresserer: når korpuset vokser, må retrieveren kunne avgrense før vektorsøket kjører, ellers drukner relevante treff i støy.

«File Search now ties the model's response directly to the original source. It captures the page number for every piece of indexed information.» — Google Developers Blog

Side-sitater er den mest umiddelbart praktiske endringen for deg som bygger noe seriøst. Når en bruker leser et svar fra en 200-siders PDF, kan appen din peke direkte til kildesiden i stedet for å håpe på at modellen siterer riktig avsnitt. Det reduserer hallusinasjonsrisiko ved fakta-tunge use-cases som juss, helse og dokumentasjon.

Google posisjonerer dette mot OpenAIs File Search og Anthropics document API, men prismodellen er fortsatt den samme: betaling per query og lagring, infrastrukturen er Googles ansvar. For norske byggere som allerede bruker Gemini-stack, fjerner det behovet for separat vektordatabase i mange prototyper.

Hva bør du gjøre?

Test multimodal indeksering på et eksisterende RAG-prosjekt for å se om Embedding 2 gir bedre presisjon enn tekst-pluss-OCR-løsningen din.
Bytt ut filnavn-baserte filtre med metadata hvis korpuset ditt har naturlige kategorier som avdeling, status eller dato.
Eksponer side-siteringene i UI-et slik at brukerne kan verifisere svar selv, ikke bare lese dem.