Sakana AIs 7B Conductor dirigerer GPT-5, Claude og Gemini: 83,9 prosent på LiveCodeBench

Hva skjer hvis du trener en liten modell til å skrive prompts for de store, i stedet for å løse oppgavene selv? Du får 83,9 prosent på LiveCodeBench og 87,5 prosent på GPQA-Diamond, ifølge papiret Sakana AI publiserte og som er akseptert til ICLR2026. Conductor er en 7-milliarder-parameter-modell trent med 200 iterasjoner av GRPO på 960 problemer hentet fra MATH, MMLU, RLPR og LiveCodeBench. Den slår både enkelt-modellene den orkestrerer og dyre baseliner som Mixture-of-Agents til en brøkdel av kostnaden.

Det interessante er ikke at det virker, men hvordan det tilpasser seg. Sakana skriver at Conductor «1-shotter enkle faktaspørsmål, men autonomt spinner opp komplekse planlegger-utfører-verifiserer-pipelines for vanskelige kodeproblemer». Modellen lærte det av seg selv gjennom belønnings-maksimering, ikke fra håndskrevne regler.

«I produksjon oppstår en innebygd flaskehals når du skal dekke domener med store brukerbaser og veldig heterogene behov. Faste pipelines som LangChain og Mixture-of-Agents fungerer for spesifikke bruksområder, men ikke for hele bredden.» — Yujin Tang, medforfatter, til VentureBeat

Conductor er ryggraden i Fugu, Sakanas kommersielle multi-agent-tjeneste. For deg som bygger agent-systemer er signalet skarpt: hardkodede LangGraph-pipelines og statiske routere er på vei ut når du jobber med variert input. Det er ikke modellen som er flaskehalsen lenger, det er koreografien.

En detalj verdt å merke: Conductor kan velge seg selv som arbeider. Sakana kaller det «Recursive Test-Time Scaling». Modellen leser sitt eget teams resultat, ser at det feilet, og spinner opp en korrigerende arbeidsflyt på sparket. Det åpner en helt ny akse for inference-time compute, parallelt med tankekjeder.

Hva bør du gjøre?

Les Sakana-bloggposten og arXiv-papiret (2512.04388) før du designer neste agent-arkitektur. Hvis du bruker LangChain eller en custom router, sjekk om Conductor-mønsteret passer bedre.
Vurder om dine egne workflows har lik «kreativitets-flaskehals»: bruker du samme prompt-pipeline for både enkle og komplekse forespørsler? Det er nøyaktig der Conductor vinner.
Følg Fugu hvis du bygger SaaS med variert kundebase. Sakanas påstand er at orkestrering nå er mer verdifullt enn rå modelltilgang. Et eksperiment med Fugu-API er billigere enn å bygge tilsvarende selv.