Der de fleste kodeagenter pakker en kodemodell inn i et fast prompt-stillas, lærer Ornith-1.0 å bygge stillaset selv. DeepReinforce bruker forsterkningslæring til å trene to lag av agent-atferd samtidig: selve svaret, og kontrollmønstrene som velger hvilke filer agenten inspiserer, hvilke tester den kjører, og når den forkaster et blindspor. Familien bygger på Gemma 4 og Qwen 3.5 og kommer i tre størrelser: en tett 9B-modell og MoE-varianter på 35B og 397B.
På DeepReinforces egne tall scorer 397B-modellen 82,4 på SWE-bench Verified og 77,5 på Terminal-Bench 2.1, mens Claude Opus 4.8 fortsatt leder med 87,6 på SWE-bench Verified. For selvhosting teller de mindre modellene mest: 35B-varianten lander på 75,6 og blir den realistiske kandidaten for de fleste egne agent-oppsett, mens 9B-modellen scorer 69,4 og kjører på ett enkelt 80 GB-GPU.
Modellene serveres via OpenAI-kompatible API-er gjennom vLLM eller SGLang, med FP8-varianter for mindre minnebruk og GGUF-bygg for llama.cpp og Ollama. Kontekstvinduet er på 256K tokens, verktøykall parses i Qwen-stil XML, og modellen legger et resonnementspor i et eget reasoning_content-felt slik at agent-rammeverk kan lese svaret uten å blande inn kladden. Integrasjonseksemplene dekker OpenHands, OpenCode, Hermes Agent og OpenClaw.
Tallene er foreløpig prosjektets egne, målt over fem kjøringer med oppgitte innstillinger, men agent-benchmarker flytter seg lett med små endringer i testoppsett og verktøyparsere. Uavhengige tester må bekrefte at resultatene holder utenfor DeepReinforces eget oppsett.
Hva bør du gjøre?
- Vil du teste lokalt, start med 9B-modellen på ett 80 GB-GPU som prøvebenk og finjusteringsbase.
- For et selvhostet agent-oppsett i produksjon er 35B-MoE-modellen den beste balansen mellom ytelse og maskinvarekrav.
- Server modellen bak et OpenAI-kompatibelt endepunkt via vLLM eller SGLang, og koble den til OpenHands eller OpenCode.