Over 22 oppgaver fra MLGym og MLEBench gir ARTS mer enn 15,3 prosent relativ forbedring i normalisert score mot ledende algoritmer. Artikkelen, lastet opp 20. juni 2026 under tittelen «Learning the ARTS of Search for Automated Discovery», angriper en konkret svakhet i dagens søkemetoder.
Problemet er at algoritmer som MCTS blander sammen hvor god en hypotese er med hvor godt den ble utført. En lovende hypotese med foreløpig utførelse havner dermed under en mer beskjeden hypotese som er finpusset. I tillegg beskjærer disse metodene søkeloggene underveis, fordi historikken vokser ut av kontekstvinduet.
ARTS (Agentic Reasoning for Tree Search) setter en resonnerende språkmodell til å navigere søkerommet. Modellen inspiserer tidligere kjøringslogger, diagnostiserer om feilene skyldtes dårlig implementasjon eller dårlig hypotese, og velger hva den skal bygge videre på. For å omgå kontekstgrensen bruker ARTS test-time training som skriver kunnskapen om søketreet inn i modellvektene.
Effekten er tydeligst på delvis observerbare RL-oppgaver: der overgår den test-time-trente Qwen3-4B til og med ARTS kjørt med o3, ved å gjenoppdage den menneske-beste løsningen med rekurrent minne som heuristiske metoder beskjærer bort. For deg som bygger med begrenset budsjett, er det poenget: en modell liten nok til å kjøre lokalt matcher Gemini-3 Pro og GPT o3-reasoning på denne oppgaveklassen, forutsatt at du tar med test-time training.