ByteDance Seed lanserer EdgeBench: agent-benchmark for 12-timers oppgaver i reelle miljøer

De fleste agent-benchmarks stopper klokka etter ett forsøk: modellen får en oppgave, leverer et svar og får en score. EdgeBench fra ByteDance Seed snur på det. Rammeverket plasserer agenten i et kjørbart miljø med flernivå-tilbakemelding og lar den iterere i 12 timer eller mer per oppgave, mens hele forbedringskurven logges, ikke bare sluttresultatet.

Benchmarken består av 134 reelle oppgaver fordelt på seks kategorier, fra maskinlæring og systemutvikling til optimering og spill. 51 av oppgavene slippes offentlig sammen med evalueringsrammeverket. ByteDance analyserte rundt 38 000 timer med agent-interaksjon og rapporterer at ytelsen følger en log-sigmoid skaleringslov som funksjon av interaksjonstid, med R² på 0,998.

På topplista deres leder Claude Opus 4.8 med 51,3 poeng etter 12 timer, foran GPT-5.5 på 48,4 og GLM-5.1 på 37,4. Tallene er ByteDances egne målinger og bør leses som det.

For deg som bygger agenter er det interessante ikke rangeringen, men premisset: en agent som er middelmådig på første forsøk kan være sterk etter noen timers iterasjon. Vil du teste egne oppsett, ligger de 51 oppgavene og koden på GitHub og Hugging Face.