I Alibabas tester over-dekomponerte en 14-milliarders modell oppgavene til unødvendig små steg og falt under en 7-milliarders modell i treffsikkerhet. Den store modellen ble forankret igjen først da forskerne matet tilbake en liste over faktisk tilgjengelige verktøy som hint. Det er kjernen i SkillWeaver, rammeverket forskere ved Alibaba beskriver i en ny artikkel.
SkillWeaver deler jobben i tre steg: dekomponer oppgaven, hent kandidatverktøy med en embedding-modell, og komponer dem til en kjørbar plan som en rettet asyklisk graf (DAG). Nyvinningen heter Skill-Aware Decomposition (SAD): i stedet for å velge verktøy i ett skudd, lar den modellen lage et førsteutkast, søke opp løst matchende verktøy, og skrive om oppdelingen så vokabularet treffer verktøyene som faktisk finnes.
Forskerne bygde en benchmark, CompSkillBench, med 300 flerstegsspørringer mot 2 209 ekte verktøy hentet fra MCP-økosystemet. En lettvekts Qwen2.5-7B traff riktig antall steg 51,0 % av gangene alene; med SAD steg det til 67,7 %, og med den større Qwen-Max-modellen til 92 %. På de vanskeligste oppgavene, med fire til fem ulike verktøy, forbedret SAD treffsikkerheten med 50 %. Til sammenligning traff en brute force-tilnærming som stapper alle verktøynavn inn i prompten riktig verktøykategori bare 21,1 % av gangene, samtidig som den brukte anslagsvis 884 000 tokens per spørring mot SkillWeavers rundt 1 160.
Forskerne har ikke sluppet kildekoden, men SAD er i praksis en prompt- og gjenhentingsløkke du kan bygge selv med LangChain, LlamaIndex eller ren Python, og prompt-malene ligger i artikkelen. En åpen embedding-modell som all-MiniLM-L6-v2 får riktig verktøy blant topp ti rundt 70 % av gangene, men lander det på førsteplass bare 37 % av gangene, så du trenger trolig en reranker på toppen. Den åpenbare begrensningen er at SkillWeaver planlegger, men ikke rydder opp: feiler et API-kall i steg to, ryker hele kjeden, og feilhåndtering må du bygge selv.