Kjernegrepet kalles DOM-dehydrering: agenten skanner siden, gir hvert interaktive element en indeks med rolle og etikett, og komprimerer alt til et FlatDomTree som en liten tekstmodell kan lese presist. Fordi bare tekst sendes til modellen, slipper du multimodale modeller og prisen deres, og du kobler til hvilken som helst OpenAI-kompatibel endepunkt via baseURL og apiKey. For deg som bygger egne apper er dette en rask vei til en copilot som faktisk utfører handlinger i grensesnittet, ikke bare forklarer dem. To forbehold: sikkerhetsreglene ligger i systemprompten og er overtalende føringer, ikke harde garantier, så behold validering på serversiden for følsomme handlinger. Og kjernebiblioteket dekker kun én visning, multi-side krever en egen Chrome-utvidelse. Best egnet for apper du selv eier og kan legge kode i, ikke eksterne eller låste nettsteder.
Alibabas Page Agent styrer nettgrensesnitt fra innsiden av siden med DOM-dehydrering
SYNOPSIS_GENERERT
Playwright, Puppeteer og Selenium styrer nettleseren utenfra, gjennom skjermbilder eller DevTools-protokollen. Alibabas Page Agent gjør det motsatte: den lever inne på siden som ren JavaScript, leser den levende DOM-en som tekst og handler i brukerens egen økt. Ingen headless nettleser, ingen skjermbilder, ingen multimodal modell. Prosjektet er open-source under MIT-lisens og bygger videre på browser-use.
KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN