Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub (ByteDance-Seed/EdgeBench) · 1T SIDEN · forskning

ByteDance Seed lanserer EdgeBench: agent-benchmark for 12-timers oppgaver i reelle miljøer

SYNOPSIS_GENERERT

ByteDance Seed har lansert EdgeBench, en benchmark med 134 reelle oppgaver som måler hvordan autonome KI-agenter lærer over tid i stedet for på ett forsøk. 51 av oppgavene og hele evalueringsrammeverket er open-source.

De fleste agent-benchmarks stopper klokka etter ett forsøk: modellen får en oppgave, leverer et svar og får en score. EdgeBench fra ByteDance Seed snur på det. Rammeverket plasserer agenten i et kjørbart miljø med flernivå-tilbakemelding og lar den iterere i 12 timer eller mer per oppgave, mens hele forbedringskurven logges, ikke bare sluttresultatet.

Benchmarken består av 134 reelle oppgaver fordelt på seks kategorier, fra maskinlæring og systemutvikling til optimering og spill. 51 av oppgavene slippes offentlig sammen med evalueringsrammeverket. ByteDance analyserte rundt 38 000 timer med agent-interaksjon og rapporterer at ytelsen følger en log-sigmoid skaleringslov som funksjon av interaksjonstid, med R² på 0,998.

På topplista deres leder Claude Opus 4.8 med 51,3 poeng etter 12 timer, foran GPT-5.5 på 48,4 og GLM-5.1 på 37,4. Tallene er ByteDances egne målinger og bør leses som det.

For deg som bygger agenter er det interessante ikke rangeringen, men premisset: en agent som er middelmådig på første forsøk kan være sterk etter noen timers iterasjon. Vil du teste egne oppsett, ligger de 51 oppgavene og koden på GitHub og Hugging Face.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN