34 198 ekte ferdigheter fra open source-repositorier ble testet mot tre toppmodeller. Forskere fra UC Santa Barbara, MIT CSAIL og MIT-IBM Watson AI Lab fant at ytelsen faller jevnt jo mer realistisk testoppsettet blir, ifølge en studie publisert av The Decoder.
Claude Opus 4.6 gikk fra 55,4 % treffsikkerhet med ferdigkuraterte ferdigheter til 38,4 % når agenten måtte søke selv i en samling uten garantert relevans. For svakere modeller er bildet verre: Kimi K2.5 endte på 19,8 %, under sin egen baseline uten ferdigheter (21,8 %). Irrelevante ferdigheter forvirrer modellen aktivt og brenner ressurser.
«These skills combined almost directly spell out the exact solution guide for the task» — forskerne, om hvordan eksisterende benchmarks gir agenter fasiten
Problemet er tredelt. Agentene klarer ikke velge riktige ferdigheter — kun 49 % av Claude-kjøringene lastet alle relevante. Søk i store samlinger gir for mange irrelevante treff, med maks 65,5 % Recall@5 for beste metode. Og generelle ferdigheter tilpasses ikke godt nok til spesifikke oppgaver.
En oppfølgende raffineringsteknikk der agenten først prøver oppgaven og deretter bygger skreddersydde ferdigheter ga bedre resultater. Claude klatret fra 40,1 % til 48,2 % på SKILLSBENCH og fra 57,7 % til 65,5 % på Terminal-Bench 2.0. Men raffinering fungerer kun som forsterker av eksisterende kvalitet, ikke som kilde til ny kunnskap.
Funnene bekrefter en tidligere Vercel-studie: i 56 % av tilfellene hentet agenten aldri tilgjengelige ferdigheter. En enkel Markdown-fil lastet passivt inn i konteksten oppnådde 100 % treffsikkerhet, mot ferdighetssystemets 79 %.