NVIDIAs Nemotron 3 Super trener KI-agenter med 1,2 millioner RL-runder og verifiserbare belønninger

Der RLHF lar et menneske rangere modellens svar, og enkel finjustering (SFT) bare hermer et format, går RLVR en annen vei: en algoritmisk verifikator scorer utdataene automatisk. NVIDIA bygde Nemotron 3 Super på NeMo-rammeverket med 21 verifikatorer og 37 datasett, og genererte over 1,2 millioner miljø-runder under treningen.

Poenget med skillet er hvilke oppgaver metoden passer for. RLVR treffer der suksess kan avgjøres av deterministiske regler: gyldig JSON, kode som består enhetstester, riktig verktøykall. Det er nettopp det langkjørende agenter må gjøre igjen og igjen, der en assistent tolker en forespørsel i naturlig språk, genererer et JSON-verktøykall og utfører kommandoen presist.

NVIDIA legger en beslutningsramme oppå dette: SFT når du trenger formattilpasning, RLHF når du skal treffe nyansert menneskelig preferanse, og RLVR med metoder som GRPO når fasiten er maskinelt verifiserbar. NeMo Gym pakker det som et modulært miljø med datasett, verifikatorer og tilstandshåndtering for agent-arbeidsflyter.

Hva bør du gjøre?

Kartlegg om oppgaven din har en deterministisk fasit (gyldig JSON, bestått test, korrekt verktøykall). Har den ikke det, gir RLVR lite og RLHF eller SFT er riktigere.
Start smått og inspiserbart med en klar belønningsfunksjon og en baseline-evaluering før du skalerer, slik NVIDIAs egen veiledning anbefaler.
Bygg agentens feil tilbake i pipelinen slik at tabber under kjøring blir treningssignal over tid.