Forskjellen mellom strategier er slående: agenter som søkte og deretter spurte, lyktes i 93,4 prosent av tilfellene, mot 56,5 prosent for dem som gjettet direkte. Mer søking gjorde det faktisk verre når agenten aldri stoppet for å spørre. Sprekken vises også innad i én kjøring: Claude Opus 4.7 løste 57 prosent av de enkelte stegene, men bare 39,8 prosent av oppgavene samlet, fordi en feil tidlig forplanter seg videre. Å bare legge til en advarsel i systemprompten hjalp lite, ifølge forskerne løftet det treffsikkerheten fra 28,6 til 33,7 prosent. For deg som bygger agenter er lærdommen konkret: agenten må både oppdage at et spørsmål er tvetydig og klare å formulere et godt oppfølgingsspørsmål, og det siste får du ikke gratis med en instruks. Alle tallene kommer fra forskernes egen benchmark og er ennå ikke uavhengig etterprøvd.
Studie: KI-søkeagenter gjetter framfor å stille oppklarende spørsmål
SYNOPSIS_GENERERT
«KI-søkeagenter feiler sjelden på flertrinns research på grunn av selve søket», skriver et forskerteam fra Tencent Hunyuan og Tsinghua-universitetet. Problemet oppstår når spørsmålet er tvetydig og agenten gjetter i stedet for å stille et oppklarende spørsmål. På deres nye målestokk DiscoBench, med 211 oppgaver og 463 tvetydige punkter fordelt på elleve fagfelt, løste den beste modellen bare 43,1 prosent av oppgavene fra ende til ende.
KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN