Forskere ved Alibaba har sluppet et nytt rammeverk kalt Hierarchical Decoupled Policy Optimisation (HDPO) sammen med en multimodal modell ved navn Metis, ifølge en gjennomgang publisert hos TechBooky. Målet er å løse det forskerne kaller en «profound metacognitive deficit» i dagens agentmodeller: de vet ikke når de skal stole på egen parametrisk kunnskap og når de skal kalle et eksternt verktøy.
Problemet har konkrete konsekvenser for de som bygger agenter i produksjon. Hvert overflødig verktøykall legger latens i sekvensiell utførelse, drar opp API-regningen, og kan forurense resonnementet med støy fra eksterne kilder. Metis er trent til å vekte effektivitet og nøyaktighet samtidig, ikke bare oppgavefullføring.
«Trigger-happy»-atferd kommer av at modeller trenes til å fullføre oppgaven for enhver pris, og defaulter til verktøykall selv når prompten allerede har nok informasjon. (Alibaba-teamet, parafrasert av TechBooky)
Reduksjonen fra 98 % til 2 % redundante kall er det mest oppsiktsvekkende tallet. Samtidig hevder teamet ny state-of-the-art på flere bransje-benchmarks, men de spesifikke benchmark-navnene og scorene er ikke oppgitt i den tilgjengelige sammenstillingen. Det betyr at tallet bør verifiseres mot Alibabas paper før du bruker det i en investeringsbeslutning.
Hva bør du gjøre?
- Logg verktøykall i din egen agent-pipeline og mål hvor stor andel som faktisk endrer svaret. Hvis du finner et høyt forhold mellom kall og verdi, har du allerede tjent inn en runde med RL-tuning.
- Følg med på når Metis-vektene eventuelt slippes som åpen vekt. Inntil da er HDPO-ideen interessantere enn modellen: balanse mellom abstain og act er noe du kan bake inn i din egen reward shaping.
- Krev benchmark-detaljer før du tar 98-til-2-tallet for god fisk. En 49-dobling i selektivitet er sterkt påstand som krever klare baselines.