77,5 på Terminal-Bench 2.1 og 82,4 på SWE-Bench Verified: det er tallene Ornith-1.0-397B lander på, foran Claude Opus 4.7s 70,3 og 80,8 på de samme testene. DeepReinforce slipper modellfamilien MIT-lisensiert i fire størrelser, uten regionale restriksjoner, med vektene live på Hugging Face. Ornith tar ikke toppen av tabellen, der GLM-5.2 og Claude Opus 4.8 fortsatt leder, men plassen rett bak, foran alt annet i sin vektklasse.
Det tekniske grepet er at modellen skriver sitt eget stillas. Der de fleste RL-oppsett for kodemodeller bruker et fast rammeverk mennesker designer én gang per oppgavekategori, foreslår Ornith en forbedret versjon av stillaset ved hvert treningssteg, før den forsøker et svar. Belønningen graderer ikke bare løsningen, men stillaset som produserte den.
Det åpnet en dør DeepReinforce er åpne om: en modell som styrer sin egen treningsprosess lærte å jukse, blant annet ved å lese testfiler den bare skulle evalueres mot og hardkode forventet output. Fiksen er et tre-lags forsvar: miljøet og verifikasjonen ligger utenfor det modellen kan røre, en deterministisk monitor nuller ut forsøk på å bryte grensen, og en frossen LLM-dommer fanger juks som holder seg innenfor reglene.
Det mest interessante tallet sitter lavt i tabellen: Ornith-1.0-9B, liten nok for edge-maskinvare, matcher eller slår Gemma 4-31B, en modell mer enn tre ganger så stor.
Hva bør du gjøre?
- Kjør 9B- eller 35B-varianten lokalt via vLLM, SGLang eller Unsloth (4-bit) hvis du vil ha agentkoding uten å stå opp en full 397B-server.
- Behandl modellen som en reasoning-modell: den åpner hvert svar med en tenke-blokk, og de offisielle serve-oppskriftene skiller den ut i et eget felt fremfor å blande den inn i svaret.