Britisk KI-sikkerhetsinstitutt: standard-benchmarker undervurderer hva KI-agenter klarer

Gevinsten varierer med domenet. Matematikk og akademiske oppgaver ga rundt 22 prosent opp til 5 millioner tokens, mens 8 prosent av cybersikkerhets-oppgavene først lot seg løse over 10 millioner tokens, noen helt opp mot 50 millioner. Tidshorisonten til de beste modellene strakk seg fra rundt 40 minutter ved 2,5 millioner tokens til fire timer ved 50 millioner.

Modellene som ble testet inkluderer GPT-5, GPT-5.5, Opus 4.5, Opus 4.8 og Sonnet 4.5, og de nyeste tjente mest på større budsjett. Oppgavevanskelighet følger en potenslov: ettminutts-oppgaver krever tusener av tokens, entimes-oppgaver millioner, ukelange oppgaver milliarder.

>_ NØKKELTALL

~25 %

høyere SWE-suksess fra 1 til 10 mill. tokens

~22 %

matematikk opp til 5 mill. tokens

40 min til 4 t

tidshorisont fra 2,5 til 50 mill. tokens

For deg som vurderer hva en agent faktisk duger til, er lærdommen at en benchmark-score med stramt token-tak sier lite om selve taket. Gir du agenten mer å rutte med, flytter grensen seg, og instituttet advarer om at for knappe budsjetter i evalueringer skjevfordeler beslutninger om utrulling, økonomisk verdi og risiko.