Dirac, en open source-fork av Cline-agenten, toppet TerminalBench 2.0-leaderboardet 27. april med 65,2 % på gemini-3-flash-preview, ifølge prosjektets egen README og benchmark-data publisert på GitHub. Resultatet slår både Googles offisielle baseline på 47,6 % og det forrige topprangerte lukkede agent-systemet Junie CLI med 64,3 %. Det skjedde uten benchmark-spesifikk informasjon eller AGENTS.md-filer i kontekstvinduet.
Det interessante for utviklere er kostnadssiden. På åtte refactoring-oppgaver i offentlige repos (transformers, vscode, django) kjørte Dirac alle korrekt til $0,18 i snitt, mot Cline på $0,49, Roo på $0,60 og Kilo på $0,73. Alle agentene brukte samme modell og samme thinking-budsjett. Forskjellen ligger i kontekst-håndteringen: Dirac bruker hash-forankrede edits for å unngå linjenummer-feil, AST-native manipulering for syntaks-trygge endringer, og batcher flere fil-edits per LLM-runde.
«Det er et veletablert fenomen at en gitt modells resonneringsevne degraderes med kontekstlengden. Holder vi konteksten stramt kuratert, forbedrer vi både nøyaktighet og kostnad samtidig.» — Dirac README, 27. april
Et åpenbart valg for prosjektet: ingen MCP-støtte. Dirac kjører kun modeller med native tool-calling, og dropper bevisst MCP-protokollen for å redusere overhead. Det betyr at MCP-baserte verktøy som Pulsens egen MCP-server ikke fungerer her, men native integrasjoner mot filsystem, terminal og headless browser er bygget inn.
Hva bør du gjøre?
- Installer CLI-en globalt med
npm install -g dirac-cli, kjørdirac auth, og start med en plan-modus-kjøring (dirac -p "...") for å se strategien før eksekvering. - Sett opp en miljøvariabel for din foretrukne LLM-leverandør (
ANTHROPIC_API_KEY,OPENAI_API_KEY,OPENROUTER_API_KEY,GEMINI_API_KEY) hvis du vil hoppe over interaktiv auth. - Sammenlign på dine egne oppgaver før du bytter ut den agenten du bruker i dag. Benchmarks er reproduserbare på offentlige repos, men din kodebase har egne mønstre og kostnadsdrivere.