STATE-Bench: Microsoft måler hva minne faktisk gjør for KI-agenter

En kundeservice-agent bryter sjelden sammen fordi den glemte et faktum. Den bryter sammen fordi den roter til prosedyren: hopper over en policy-sjekk, henter ufullstendige brukerdetaljer eller gjentar samme feilmønster. Det skillet er hele utgangspunktet for STATE-Bench, en åpen benchmark Microsoft slapp 19. mai 2026.

Problemet STATE-Bench angriper er at de fleste minne-benchmarks egentlig bare er gjenfinningstester: hent et navn fra 50 turer tilbake. Det viser at røret virker, ikke at agenten presterer bedre. STATE-Bench (Stateful Task Agent Evaluation Benchmark) består i stedet av 450 oppgaver i tre domener (reise, kundeservice og shopping), der hver oppgave har en forhåndsfylt database, en simulert bruker med egen personlighet og deterministiske tilstands-assertions som definerer suksess.

Benchmarken måler fire ting: hvor ofte agenten fullfører oppgaven, hvor konsistent den er over fem kjøringer (pass^5), hvor effektivt den jobber, og hvor god brukeropplevelsen er. Tallene viser hvorfor det trengs: en GPT-5.1-baseline uten minne fullfører under halvparten av oppgavene pålitelig, og i reise-domenet klarer bare rundt 30 prosent alle fem kjøringene.

«Kundeservice-agenter bryter ikke sammen fordi de glemte et faktum, de bryter sammen fordi de rotet til prosedyren.» — STATE-Bench-teamet, Microsoft

Hele rammeverket er MIT-lisensiert og åpent, med et «bring your own memory»-grensesnitt slik at du kan plugge inn ditt eget minnesystem og måle effekten direkte.

Hva bør du gjøre?

Kjør no-memory-baselinen på din egen agent for å finne utgangspunktet.

Plugg inn ditt eget minnesystem via «bring your own memory»-grensesnittet og sammenlign på de fire metrikkene.
Se på pass^5, ikke bare gjennomsnittlig fullføring, for det er konsistensen et minnesystem skal fikse.