Utvikler-essay: agenter trenger kontrollflyt, ikke flere prompter

Essayet ble publisert 7. mai på bsuh.bearblog.dev og åpner med en kjent frustrasjon: når du finner deg selv skrivende MANDATORY og DO NOT SKIP i system-prompten, er du på feil side av abstraksjonen. Brian sammenligner prompt-orkestrering med «et programmeringsspråk der setninger er forslag og funksjoner returnerer Success mens de hallusinerer».

Kjernen i argumentet handler om hvordan software egentlig skalerer. Tradisjonelle systemer komponerer seg gjennom biblioteker, moduler og funksjoner med predikerbar oppførsel. LLM-prompter mangler denne egenskapen: de er ikke-deterministiske, svakt spesifiserte og vanskelige å verifisere. Når kompleksiteten vokser, kollapser pålitelighet.

«Hvis du noen gang har skrevet MANDATORY eller DO NOT SKIP, har du nådd taket av prompting.» — Brian, utvikler og forfatter av essayet

Løsningen Brian skisserer er deterministisk orkestrering: eksplisitte tilstandsoverganger og valideringssjekkpunkter som behandler LLM-en som en komponent, ikke selve systemet. Han peker på at uten programmatisk verifisering sitter du igjen med tre alternativer han kaller babysitter (menneske i loopen), revisor (uttømmende ende-til-ende-sjekk i etterkant) eller bønn (vibe-godkjenn outputen).

Debatten er ikke ny, men plasseringen høyt på Hacker News reflekterer en voksende skepsis mot agent-rammeverk som lover deg pålitelighet bare du skriver bedre prompter. LangGraph, Pydantic AI og BAML har allerede beveget seg mot kode-først-tilnærmingen, mens rene prompt-orkestrerere som CrewAI fortsatt læner seg tungt på naturspråk.

Hva bør du gjøre?

Audit dine egne prompt-kjeder. Hver MANDATORY eller DO NOT SKIP du har skrevet inn er et signal om at logikk hører hjemme i koden, ikke i prompten.
Velg rammeverk med eksplisitt kontrollflyt. LangGraph (Python) eller Mastra (TypeScript) gir deg en tilstandsmaskin du kan resonnere om, i motsetning til ren prompt-orkestrering.
Bygg inn verifisering programmatisk. I stedet for å be LLM-en sjekke seg selv, valider output mot et schema (Pydantic, Zod) eller mot en deterministisk testkjøring før neste steg utløses.