Et kontekstvindu på 1 million tokens høres ut som mye minne, men i praksis er det en kladdeblokk, ikke et arkiv. Det er premisset bak Atlas, systemet Elastic nettopp har åpnet kildekoden til. I stedet for å stappe hele samtalehistorikken inn i prompten, bygger Atlas et varig minne oppå Elasticsearch og henter ut relevante fakta ved behov. På spørsmål-svar-oppgaver scoret det 0,89 Recall@10.
«Et kontekstvindu på 1 million tokens er en kladdeblokk. Det er ikke et minnesystem» — Elastic
Atlas låner en inndeling fra kognitiv vitenskap og holder tre minnetyper i hver sin Elasticsearch-indeks: episodisk («hva skjedde»), semantisk («hva er sant») og prosedyrisk («hva fungerer»). Hver brukerinput lagres først som en episodisk hendelse. De fleste forfaller, men en LLM konsoliderer noen til varige fakta, lagret som korte setninger med belegg og med peker til eldre fakta de erstatter. Prosedyreminnet bygger «playbooks» med suksess- og fiasko-tellere som vekter opp oppskrifter som faktisk har virket.
Henting skjer i ett hybrid-søk på tvers av indeksene: Reciprocal Rank Fusion over BM25 og Jina v5 semantisk søk, før en cross-encoder re-rangerer treffene. Dokumentnivå-sikkerhet sørger for at en bruker bare ser sine egne minner. På Hacker News stilte flere spørsmål ved om Elasticsearch er overkill, og pekte på enklere vektor-databaser som SQLite.
Hva bør du gjøre?
- Test Atlas via MCP hvis agenten din allerede kjører på Elasticsearch, da er terskelen lav.
- Vurder volumet ditt før du adopterer: for noen tusen vektorer holder en enklere lagring, men brute-force-søk møter veggen godt under én million om du vil ha lav latens.
- Skil minnetypene i din egen arkitektur: episodiske hendelser bør forfalle, semantiske fakta bør bestå.