AWS Bedrock AgentCore Optimization foreslår prompt-fikser fra produksjonstrace og A/B-tester dem live

«Det som tok uker av manuell prompt-iterasjon er nå en repeterbar syklus med AgentCore: generer en anbefaling fra produksjonstrace, valider den mot live trafikk med statistisk signifikans, og deploy den vinnende konfigurasjonen,» sier Masashi Shimizu, Senior Managing Director i Nomura Research Institute, i AWS' annonsering.

Amazon Bedrock AgentCore Optimization gikk inn i public preview 4. mai 2026. Tjenesten kobler tre ting som tidligere krevde egne pipelines: trace-innsamling via OpenTelemetry, evaluering med innebygde eller egendefinerte LLM-as-judge-skår, og forslag til prompt- eller verktøybeskrivelse-endringer basert på hva som faktisk feiler i produksjon.

Konfigurasjoner pakkes som immutable, versjonerte bundles knyttet til runtime-ARN — modell-ID, system-prompt og verktøybeskrivelser i ett snapshot. Agenten leser aktiv konfigurasjon dynamisk via AgentCore SDK, så bytte av prompt eller modell er en konfigendring, ikke en kode-deploy.

Valideringa har to spor. Batch-evaluering kjører agenten mot et kuratert testdatasett og rapporterer aggregerte skår mot baseline, og kan kobles inn i CI/CD så ingen endring slipper gjennom uten å passere kjente cases. A/B-testing splitter live trafikk gjennom AgentCore Gateway etter prosent du selv setter, og rapporterer resultater med konfidensintervaller og p-verdier. Pause testen for å rulle tilbake; promoter vinneren ved å sette den som default.

«Continuously evaluating and improving agents is essential for driving data-driven value creation» — Yoshiharu Okuda, Head of Generative AI Business Strategy Department, NTT DATA

AWS argumenterer at agent-kvalitet alltid drifter etter lansering når modeller, brukere og bruksmønstre endrer seg. Manuelle prompt-fix-runder, der utvikleren leser trace, gjetter, retter og deployer, holder ikke følge med driften. AgentCore Optimization erstatter den syklusen med en målbar feedback-loop.

Hva bør du gjøre?

Hvis du allerede kjører agenter på AgentCore Runtime med Observability og Evaluations: aktiver preview-en og test mot et lavtrafikk-endepunkt først. Recommendations-API-et peker mot CloudWatch-Log-gruppa der agenten skriver trace.
Bygg testdatasett før du trenger dem. Batch-evaluering forutsetter at du har gold-cases klare; å lage dem etter at en regresjon dukker opp er for sent.
Hvis du ikke er på AgentCore: studer mønsteret. Trace inn, evaluering, recommendation, A/B-test. Dette er rammeverket andre agent-plattformer (LangSmith, Langfuse, egne pipelines) vil måtte matche.