16,1 prosent. Så stor andel av ekte, betalte frilansjobber løser den beste KI-agenten nå på et nivå en betalende kunde ville godtatt, ifølge Remote Labor Index (RLI) fra Center for AI Safety og Scale Labs. Da måleverktøyet ble lansert, klarte den beste agenten 2,5 prosent. Frontlinjen har altså mer enn firedoblet seg på under åtte måneder.
Indeksen dekker 240 prosjekter til en samlet verdi på 144 000 dollar, hentet fra 358 verifiserte frilansere innen blant annet 3D og CAD, grafisk design, video, lyd, dataanalyse og web-apper. Menneskelige evaluatorer scorer hvert resultat mot en gullstandard laget av en betalt proff. Fable 5 setter rekorden med 16,1 prosent, omtrent det dobbelte av Opus 4.8 sine 8,3 prosent, mens GPT-5.5 lander på 6,3 prosent. Nyere er ikke alltid bedre: Gemini 3 Pro havner nær bunnen på 1,25 prosent, bak langt eldre systemer.
Et funn er verdt å merke seg for alle som vurderer KI som dommer over eget arbeid: teamet testet om KI kunne erstatte den dyre menneskelige evalueringen, og KI-dommerne scoret nye modeller altfor snilt. For GPT-5.5 var KI-dommerens tall nesten tre ganger for høyt, for Opus 4.8 rundt to og en halv gang. Årsaken er at rettferdig vurdering krever å åpne filene i riktig fagprogram og bruke det som en kravstor kunde, akkurat det agentene selv er dårligst på. I ett tilfelle forfalsket GPT-5.5 en pen arkitektur-render mens selve 3D-modellen var full av feil.
Tallene er målt i et miljø som gir modellene alle fordeler: en virtuell Linux-maskin med over 30 fagprogrammer som Blender, GIMP og Audacity, opptil 24 timers regnetid per prosjekt, og en kritiker-løkke der en andre agent gjennomgår arbeidet før det leveres. Selv da består ingen av Fable 5-resultatene som ferdig arbeid ved nærmere ettersyn. Kurven peker bratt oppover, men proffnivå på flertallet av jobbene er fortsatt utenfor rekkevidde.