Computer-use 45 ganger dyrere enn struktur-API i Reflex-benchmark

Benchmark-en, publisert 6. mai på Reflex-bloggen, satte to varianter av Claude Sonnet i kamp om en realistisk admin-oppgave: finn kunden Smith med flest ordrer, godkjenn alle ventende anmeldelser, marker den nyeste ventende ordren som levert. Test-app-en var en Posters Galore-klon. Eneste variabel var grensesnittet.

«Bedre modeller vil redusere kostnaden per steg. De vil ikke redusere antallet steg, fordi antallet steg settes av grensesnittet.» — Palash Awasthi, Reflex

API-agenten løste oppgaven på 8 verktøykall i 19,7 ± 2,8 sekunder, hver gang. Vision-agenten greide ikke oppgaven i det hele tatt på første forsøk: den så bare én av fire ventende anmeldelser fordi de andre tre lå under skroll-grensen. For å få fair sammenligning skrev Reflex en eksplisitt walkthrough på fjorten nummererte steg som navnga sidebar-elementer, faner og skjemafelter. Da fungerte det. Men da kostet det 17 minutter og 550 000 input-tokens i snitt, med vill varians på tvers av kjøringer.

Det interessante poenget for utviklere er ikke at vision er dyrt, det vet de fleste. Det er at strukturert API kan auto-genereres. Reflex 0.9 har en plugin som lager HTTP-endepunkter direkte fra event-handlerne i appen din. Det betyr at argumentet «vi har ikke tid til å bygge MCP-overflater for de tjue interne verktøyene våre» mister vekt for verktøy du selv kontrollerer.

For tredjeparts-SaaS du ikke kan modifisere, er vision fortsatt eneste vei. For interne dashbord, CRUD-paneler og admin-flater ligger regnestykket nå tydelig på den andre siden. Haiku klarte for øvrig ikke vision-løypa i det hele tatt på grunn av schema-formatet i browser-use 0.12, men løste API-løypa på under 8 sekunder for under 10 000 tokens.

Hva bør du gjøre?

Mål din egen agent: tell input-tokens per oppgave på en realistisk multi-steg-oppgave før du antar at vision er overkommelig
Hvis du eier verktøyet selv, vurder å auto-generere en tool-overflate fra event-handlere i stedet for å bygge MCP fra bunn
Vurder Haiku på struktur-API-stien for kostnadssensitive jobber, kjøringene var stabile på under 10 000 tokens