DeepReinforce har sluppet Ornith-1.0, en open-source kodemodell i fire størrelser (9B og 31B dense, pluss 35B og 397B MoE), bygget videre på Gemma 4 og Qwen 3.5. Det som skiller den er treningsmetoden: i stedet for bare å lære seg løsninger, bruker modellen forsterkningslæring (RL) til også å generere scaffoldet, altså søke- og verktøytrajektoriene som driver løsningene.
Ved å optimalisere begge deler samtidig oppdager modellen bedre søkebaner. På benchmarks for agentisk koding ligger 397B-varianten over Qwen3.5-397B på alle de fire oppgavene DeepReinforce viser: 82,4 mot 76,4 på SWE-bench Verified, 77,5 mot 53,5 på Terminal-Bench 2.1, og 62,2 mot 51,6 på SWE-bench Pro. Den henger fortsatt etter Claude Opus 4.8 (87,6 på SWE-bench Verified), men tetter mye av gapet med en åpen vekt og MIT-lisens.
For deg som kjører lokalt er det praktiske at modellen støtter vLLM, SGLang, llama.cpp, Ollama og Hugging Face Transformers, med OpenAI-kompatible endepunkter og 256K kontekstvindu. De mindre variantene (9B og 31B) gjør at selvforbedrings-trikset ikke bare er forbeholdt dem med et H200-rack.
Hva bør du gjøre?
- Velg størrelse etter maskinvare. 9B- eller 31B-dense kjører på én moderne GPU, mens 397B MoE krever et skikkelig rack. Start smått hvis du bare vil teste agentisk koding lokalt.
- Bruk anbefalt sampling: DeepReinforce oppgir temperature 0,6, top_p 0,95 og top_k 20 som utgangspunkt.
- Kjør den via vLLM eller Ollama med OpenAI-kompatibelt endepunkt, så kan du peke eksisterende agent-klienter som Aider eller OpenCode rett mot den uten å bytte verktøykjede.