Hva skjer hvis du trener en liten modell til å skrive prompts for de store, i stedet for å løse oppgavene selv? Du får 83,9 prosent på LiveCodeBench og 87,5 prosent på GPQA-Diamond, ifølge papiret Sakana AI publiserte og som er akseptert til ICLR2026. Conductor er en 7-milliarder-parameter-modell trent med 200 iterasjoner av GRPO på 960 problemer hentet fra MATH, MMLU, RLPR og LiveCodeBench. Den slår både enkelt-modellene den orkestrerer og dyre baseliner som Mixture-of-Agents til en brøkdel av kostnaden.
Det interessante er ikke at det virker, men hvordan det tilpasser seg. Sakana skriver at Conductor «1-shotter enkle faktaspørsmål, men autonomt spinner opp komplekse planlegger-utfører-verifiserer-pipelines for vanskelige kodeproblemer». Modellen lærte det av seg selv gjennom belønnings-maksimering, ikke fra håndskrevne regler.
«I produksjon oppstår en innebygd flaskehals når du skal dekke domener med store brukerbaser og veldig heterogene behov. Faste pipelines som LangChain og Mixture-of-Agents fungerer for spesifikke bruksområder, men ikke for hele bredden.» — Yujin Tang, medforfatter, til VentureBeat
Conductor er ryggraden i Fugu, Sakanas kommersielle multi-agent-tjeneste. For deg som bygger agent-systemer er signalet skarpt: hardkodede LangGraph-pipelines og statiske routere er på vei ut når du jobber med variert input. Det er ikke modellen som er flaskehalsen lenger, det er koreografien.
En detalj verdt å merke: Conductor kan velge seg selv som arbeider. Sakana kaller det «Recursive Test-Time Scaling». Modellen leser sitt eget teams resultat, ser at det feilet, og spinner opp en korrigerende arbeidsflyt på sparket. Det åpner en helt ny akse for inference-time compute, parallelt med tankekjeder.
Hva bør du gjøre?
- Les Sakana-bloggposten og arXiv-papiret (2512.04388) før du designer neste agent-arkitektur. Hvis du bruker LangChain eller en custom router, sjekk om Conductor-mønsteret passer bedre.
- Vurder om dine egne workflows har lik «kreativitets-flaskehals»: bruker du samme prompt-pipeline for både enkle og komplekse forespørsler? Det er nøyaktig der Conductor vinner.
- Følg Fugu hvis du bygger SaaS med variert kundebase. Sakanas påstand er at orkestrering nå er mer verdifullt enn rå modelltilgang. Et eksperiment med Fugu-API er billigere enn å bygge tilsvarende selv.