Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Google Blog · 10.5., 16:41 · verktøy

Gemini File Search blir multimodal: bilder, lyd og video kan indekseres direkte i RAG

SYNOPSIS_GENERERT

Google har utvidet Gemini API File Search fra ren tekst til bilder, lyd og video i samme RAG-spørring, drevet av Embedding 2. Oppdateringen legger til metadata-filtre og side-presise sitater.

Google annonserte oppdateringen på utviklerbloggen sin den 10. mai. Tidligere håndterte File Search-verktøyet bare tekstdokumenter. Nå indekseres bilder, lyd og video direkte ved hjelp av den nye Embedding 2-modellen, slik at agenten din kan slå opp et visuelt motiv beskrevet i naturlig språk uten å gå veien om filnavn eller manuelle tagger.

I tillegg kan du feste vilkårlige nøkkel-verdi-par som metadata på hver fil, for eksempel department: Legal eller status: Final, og filtrere på dem ved spørretid. Det er den klassiske RAG-flaskehalsen Google adresserer: når korpuset vokser, må retrieveren kunne avgrense før vektorsøket kjører, ellers drukner relevante treff i støy.

«File Search now ties the model's response directly to the original source. It captures the page number for every piece of indexed information.» — Google Developers Blog

Side-sitater er den mest umiddelbart praktiske endringen for deg som bygger noe seriøst. Når en bruker leser et svar fra en 200-siders PDF, kan appen din peke direkte til kildesiden i stedet for å håpe på at modellen siterer riktig avsnitt. Det reduserer hallusinasjonsrisiko ved fakta-tunge use-cases som juss, helse og dokumentasjon.

Google posisjonerer dette mot OpenAIs File Search og Anthropics document API, men prismodellen er fortsatt den samme: betaling per query og lagring, infrastrukturen er Googles ansvar. For norske byggere som allerede bruker Gemini-stack, fjerner det behovet for separat vektordatabase i mange prototyper.

Hva bør du gjøre?

  1. Test multimodal indeksering på et eksisterende RAG-prosjekt for å se om Embedding 2 gir bedre presisjon enn tekst-pluss-OCR-løsningen din.
  2. Bytt ut filnavn-baserte filtre med metadata hvis korpuset ditt har naturlige kategorier som avdeling, status eller dato.
  3. Eksponer side-siteringene i UI-et slik at brukerne kan verifisere svar selv, ikke bare lese dem.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN