Anthropic lanserer «dreaming» i Claude Managed Agents: Harvey rapporterer 6x completion rate

Dreaming er ifølge Anthropic en planlagt prosess som går gjennom agentens tidligere sesjoner og minne, finner mønstre og kuraterer hukommelsen før neste oppdrag. Du velger om dreaming skal oppdatere minnet automatisk, eller om endringene skal innom deg først. Funksjonen lanseres samtidig med outcomes (rubrikk-basert selvevaluering), fleragens-orkestrering og webhooks i public beta.

Det Anthropic kaller dreaming er i praksis en offline konsolideringsfase mellom agentens aktive økter. Den skal fange opp gjentatte feil, arbeidsflyter agenter konvergerer mot, og preferanser delt på tvers av et team. Anthropic posisjonerer det som halvparten av et todelt minnesystem: ordinær memory fanger det agenten lærer mens den jobber, mens dreaming destillerer på tvers av sesjoner i etterkant.

«Memory lets each agent capture what it learns as it works. Dreaming refines that memory between sessions, pulling shared learnings across agents and keeping it up-to-date.» — Anthropic, lanseringsbloggen

For utviklere som bygger agentpipelines er outcomes minst like interessant som dreaming. Du skriver en rubrikk for hva «godt» betyr, og en separat grader vurderer agentens output i sin egen kontekst, isolert fra agentens egen resonnering. Agenten får tilbakemelding og prøver igjen til den klarer kravet. Anthropic oppgir at outcomes løftet task-suksess med opptil 10 prosentpoeng over standard prompting, og målte +8,4 % på docx-generering og +10,1 % på pptx i interne benchmarks.

Fleragens-orkestrering lar en lead-agent dele opp en jobb og delegere til spesialister med egne modeller, prompts og verktøy. Spesialistene jobber parallelt på et delt filsystem og bidrar tilbake til lead-agentens kontekst. Hvert steg loggføres i Claude Console. Webhooks gir endelig bekreftelse på at modellen er klar når en outcome er nådd, slik at du kan trigge nedstrøms-jobber uten å polle.

Harvey rapporterer ifølge Anthropic 6x høyere completion rate i interne tester etter å ha tatt i bruk dreaming for langformat juridiske dokumenter. Wisedocs forteller at deres dokument-review-agent kjører 50 % raskere med outcomes som kvalitetsgate. Tallene kommer fra Anthropics egne kunder, så ta dem som anekdoter heller enn benchmarks.

Hva bør du gjøre?

Hvis du allerede bruker Claude Managed Agents, be om tilgang til dreaming-previewen og kjør den mot et eksisterende minnestore for å se hvilke mønstre den faktisk plukker opp før du gir den auto-approve.
Test outcomes på en oppgave hvor du i dag bruker en sekundær LLM som dommer. Anthropics eget grep med separat grader-kontekst er det samme mønsteret, men nå pakket inn i runtime og koblet til retry-løkka.
Bygg ikke fleragens-orkestrering bare fordi det går. Anthropics egne eksempler (Harvey, Netflix, Spiral) handler om jobber som er for store for ett kontekstvindu. Hvis oppgaven kan løses i én sesjon, gjør den det.