De fleste observability-verktøy lar deg se på agenten mens den kjører. Retrace, som ble lansert på Product Hunt denne uken, gjør det motsatte: den lar deg spole agenten tilbake. Verktøyet tar opp hvert LLM-kall, hvert verktøykall og hver feil i en kjøring, og spiller den så av på nytt deterministisk. Du kan forgrene fra det nøyaktige steget som knakk, endre input og la endringen kaskade nedover resten av kjøringen.
Poenget er en side-ved-side-diff av de to tidslinjene, med forskjell i kostnad og latens. Det gjør at du kan vise at fiksen faktisk løste problemet, ikke bare at kjøringen tilfeldigvis gikk gjennom én gang. Det er samme mønster som record-replay-fork, måten distribuerte systemer ble feilsøkbare på da bransjen innså at de var ikke-deterministiske. KI-agenter får nå den samme behandlingen.
Den andre halvdelen av produktet er runtime-policyer: kostnadsbudsjett, loop-deteksjon og tak på kontekstoverflyt og latens. Krysser agenten en grense, får den en HALT-kommando, og den løpske loopen stopper ved budsjettlinjen din i stedet for ved slutten av kredittkortet. Retrace er rammeverk-agnostisk og kobler seg på LangChain, CrewAI, Vercel AI SDK, AutoGen og LlamaIndex.
Konteksten er at forskningen har pekt hit en stund. «Agents' Last Exam» viste at agenter feiler på de fleste reelle økonomiske oppgavene, og «Agentic Abstention»-artikkelen pekte på at den dyre feilmodusen ikke er gale svar, men agenter som ikke vet når de skal stoppe. Feltet for agent-observability blir samtidig trangt: Heron tapper nettverkstrafikken, Coralogix har lagt 200 millioner dollar i rommet, og et titalls SDK-instrumenteringsverktøy konkurrerer. Retrace sin vinkel er at dette ikke er et dashboard, men en debugger.
Hva bør du gjøre?
- Koble Retrace på et eksisterende agent-oppsett i LangChain, CrewAI eller Vercel AI SDK og la den ta opp en kjøring du vet feiler ujevnt.
- Sett et kostnadsbudsjett og loop-deteksjon før du lar en langkjørende agent stå alene, så HALT-grensen fanger runaway-loops før regningen løper.