34 000 ferdigheter testet: KI-agenter kollapser når benchmarks blir realistiske

34 198 ekte ferdigheter fra open source-repositorier ble testet mot tre toppmodeller. Forskere fra UC Santa Barbara, MIT CSAIL og MIT-IBM Watson AI Lab fant at ytelsen faller jevnt jo mer realistisk testoppsettet blir, ifølge en studie publisert av The Decoder.

Claude Opus 4.6 gikk fra 55,4 % treffsikkerhet med ferdigkuraterte ferdigheter til 38,4 % når agenten måtte søke selv i en samling uten garantert relevans. For svakere modeller er bildet verre: Kimi K2.5 endte på 19,8 %, under sin egen baseline uten ferdigheter (21,8 %). Irrelevante ferdigheter forvirrer modellen aktivt og brenner ressurser.

«These skills combined almost directly spell out the exact solution guide for the task» — forskerne, om hvordan eksisterende benchmarks gir agenter fasiten

Problemet er tredelt. Agentene klarer ikke velge riktige ferdigheter — kun 49 % av Claude-kjøringene lastet alle relevante. Søk i store samlinger gir for mange irrelevante treff, med maks 65,5 % Recall@5 for beste metode. Og generelle ferdigheter tilpasses ikke godt nok til spesifikke oppgaver.

>_ NØKKELTALL

34 198

reelle ferdigheter testet fra open source

55,4 % → 38,4 %

Claude Opus 4.6 ytelsesfall fra kuratert til realistisk

49 %

andel Claude-kjøringer som lastet alle relevante ferdigheter

19,8 %

Kimi K2.5 under realistiske forhold (baseline: 21,8 %)

En oppfølgende raffineringsteknikk der agenten først prøver oppgaven og deretter bygger skreddersydde ferdigheter ga bedre resultater. Claude klatret fra 40,1 % til 48,2 % på SKILLSBENCH og fra 57,7 % til 65,5 % på Terminal-Bench 2.0. Men raffinering fungerer kun som forsterker av eksisterende kvalitet, ikke som kilde til ny kunnskap.

Funnene bekrefter en tidligere Vercel-studie: i 56 % av tilfellene hentet agenten aldri tilgjengelige ferdigheter. En enkel Markdown-fil lastet passivt inn i konteksten oppnådde 100 % treffsikkerhet, mot ferdighetssystemets 79 %.