Forge: guardrails løfter selvhostet 8B-modell fra 53 til 99 prosent på agent-eval

53 til 99 prosent. Det er løftet utvikleren Antoine Zambelli viser til for en selvhostet 8B-modell på Forges agent-eval, en påstand som ga prosjektet over 530 poeng og toppen av Hacker News. Forge (pip-pakken forge-guardrails) er et MIT-lisensiert Python-prosjekt som angriper ett konkret problem: små, lokale modeller som kan svaret, men roter til selve verktøykallet i flertrinns agent-løkker.

Forge trener ikke modellen på nytt. Den legger seg utenpå som et lag av guardrails (rescue-parsing av ødelagte tool-calls, retry-nudges og step-enforcement) og kontekststyring (VRAM-bevisste budsjetter og tiered compaction). På den fulle 26-scenario eval-suiten oppgir READMEen at toppkonfigurasjonen, en Ministral-3 8B i Q8 på llama-server, lander på 86,5 prosent, og 76 prosent på den hardeste tier-en.

Zambelli er åpen om hva tallene faktisk måler:

«Forges eval er bevisst avgrenset som en stresstest av recovery-løkka, ikke et mål på ende-til-ende agentisk kvalitet.» — Antoine Zambelli, utvikler av Forge

Mekanikken er domene-agnostiske dult. Forge trenger ikke vite hva du prøver å gjøre; modellen vet det allerede. Laget nudger den tilbake på sporet på det strukturelle planet: tekstsvar kontra tool-call, argument-mismatch og hoppede steg. Du kan bruke det på tre måter: som WorkflowRunner der Forge styrer hele løkka, som middleware i din egen orkestrering, eller som en OpenAI-kompatibel proxy foran modellserveren. Poenget med proxy-modusen oppsummerer dokumentasjonen slik:

«Klienten tror den snakker med en smartere modell.»

Backends som støttes er llama-server (llama.cpp), Ollama, Llamafile og Anthropic. For deg som kjører lokale modeller er dette interessant fordi flaskehalsen sjelden er rå kapasitet: modellen veiver av sporet på et formatnivå, ikke fordi den mangler svaret.

Hva bør du gjøre?

pip install forge-guardrails og pek proxy-modusen mot din eksisterende llama-server eller Ollama.

Kjør eval-suiten mot din egen modell og hardware, og les tallene som en stresstest av recovery-løkka, ikke som ende-til-ende-kvalitet.
Bruk guardrails-middleware direkte hvis du allerede har en agent-løkke og bare vil ha rescue-parsing og step-enforcement.