Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Google Blog · 6.5., 12:27 · verktøy

Gemini API File Search blir multimodal — RAG med sitater på sidenivå

SYNOPSIS_GENERERT

Google ruller ut tre oppdateringer til File Search-verktøyet i Gemini API: multimodal indeksering via Embedding 2, egendefinert metadata-filter og sitater på sidenivå.

Hvordan beviser RAG-systemet ditt at svaret faktisk står i kildedokumentet? Google har nå tre svar bygd inn i File Search-verktøyet i Gemini API: indeksering av tekst og bilder samtidig, key-value-metadata du kan filtrere på ved spørring, og sitater knyttet til konkrete sidenumre i kildedokumentet. Oppdateringen ble annonsert på Googles utvikler-blogg og gjelder umiddelbart for alle som bruker File Search via API-et.

Multimodal-indekseringen kjører på Gemini Embedding 2, som forstår native bildedata sammen med tekst. I praksis betyr det at appen din kan søke i et bildearkiv på «emosjonell tone» eller visuell stil beskrevet i naturlig språk, ikke bare på filnavn og keywords. Tidligere måtte du enten kjøre OCR og indeksere bildebeskrivelser separat, eller bytte til en multimodal embedding-modell og rulle din egen lagring. Nå håndterer File Search begge modalitetene i samme indeks.

Metadata-filteret er enklere, men ofte viktigere i prod: legg på key-value-tagger som department: Legal eller status: Final, og scope spørringen til riktig dokumentskive før den treffer embeddings. Det reduserer både latens og hallusinasjon, fordi modellen får færre konkurrerende kandidater å vurdere.

«File Search ties the model's response directly to the original source. It captures the page number for every piece of indexed information.» — Google Developer Blog

Sidenivå-sitater løfter RAG fra «omtrent riktig» til verifiserbar. I dag returnerer de fleste RAG-systemer dokument-ID som kilde, og brukeren må selv lete etter avsnittet. Med page citations peker svaret direkte til side 47 i kontrakten. For interne kunnskapsbaser, juridiske dokumenter eller medisinsk tekst er det forskjellen mellom et leketøy og noe en revisor kan stå inne for.

For norske utviklere som bygger RAG på toppen av Gemini er den praktiske gevinsten at du slipper å rulle din egen sitatlogikk eller bilde-pipeline. File Search håndterer infrastrukturen (chunking, embedding, gjenfinning, sitater) og du betaler per query. Du må fortsatt designe metadata-skjemaet ditt og bestemme om Gemini Embedding 2 er sterk nok for ditt domene mot åpne alternativer som E5 eller bge-m3.

Hva bør du gjøre?

  1. Test multimodal-indekseringen mot en faktisk PDF-stack med blandet tekst og figurer. Det er der det vanligvis brytes ned.
  2. Legg på minst ett metadata-felt fra dag én. Det er smertefullt å backfille tagger på 50 000 dokumenter senere.
  3. Vurder kostnaden mot egen vektorbase (pgvector, Qdrant) hvis du allerede kjører embeddings selv. Gevinsten er sitatkvaliteten, ikke prisen.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN