Open source-agenten Dirac topper TerminalBench 2.0 med 65,2 prosent og 64,8 prosent lavere kostnad

Dirac, en open source-fork av Cline-agenten, toppet TerminalBench 2.0-leaderboardet 27. april med 65,2 % på gemini-3-flash-preview, ifølge prosjektets egen README og benchmark-data publisert på GitHub. Resultatet slår både Googles offisielle baseline på 47,6 % og det forrige topprangerte lukkede agent-systemet Junie CLI med 64,3 %. Det skjedde uten benchmark-spesifikk informasjon eller AGENTS.md-filer i kontekstvinduet.

Det interessante for utviklere er kostnadssiden. På åtte refactoring-oppgaver i offentlige repos (transformers, vscode, django) kjørte Dirac alle korrekt til $0,18 i snitt, mot Cline på $0,49, Roo på $0,60 og Kilo på $0,73. Alle agentene brukte samme modell og samme thinking-budsjett. Forskjellen ligger i kontekst-håndteringen: Dirac bruker hash-forankrede edits for å unngå linjenummer-feil, AST-native manipulering for syntaks-trygge endringer, og batcher flere fil-edits per LLM-runde.

«Det er et veletablert fenomen at en gitt modells resonneringsevne degraderes med kontekstlengden. Holder vi konteksten stramt kuratert, forbedrer vi både nøyaktighet og kostnad samtidig.» — Dirac README, 27. april

Et åpenbart valg for prosjektet: ingen MCP-støtte. Dirac kjører kun modeller med native tool-calling, og dropper bevisst MCP-protokollen for å redusere overhead. Det betyr at MCP-baserte verktøy som Pulsens egen MCP-server ikke fungerer her, men native integrasjoner mot filsystem, terminal og headless browser er bygget inn.

>_ NØKKELTALL

65,2 % Dirac på Terminal-Bench-2.0 (gemini-3-flash-preview)

47,6 % Googles egen offisielle baseline samme modell

$0,18 Snittkostnad per Dirac-oppgave

$0,49 Snittkostnad for Cline (parent-prosjektet)

Hva bør du gjøre?

Installer CLI-en globalt med npm install -g dirac-cli, kjør dirac auth, og start med en plan-modus-kjøring (dirac -p "...") for å se strategien før eksekvering.
Sett opp en miljøvariabel for din foretrukne LLM-leverandør (ANTHROPIC_API_KEY, OPENAI_API_KEY, OPENROUTER_API_KEY, GEMINI_API_KEY) hvis du vil hoppe over interaktiv auth.
Sammenlign på dine egne oppgaver før du bytter ut den agenten du bruker i dag. Benchmarks er reproduserbare på offentlige repos, men din kodebase har egne mønstre og kostnadsdrivere.