Hugging Face sin ml-intern løfter Qwen3-1.7B fra 10 til 32 prosent på GPQA — slår Claude Code på samme test

Hugging Face publiserte 21. april ml-intern, en åpen KI-agent bygget på deres smolagents-rammeverk. Den automatiserer hele post-training-flyten for språkmodeller: litteraturgjennomgang, datasett-oppdagelse, trenings-skript og iterativ evaluering — oppgaver som normalt krever betydelig manuelt arbeid fra ML-forskere.

«In less than 10 hours, the agent pushed a Qwen3-1.7B model's scientific reasoning score on the GPQA benchmark from 8.5% to 32%, outperforming the specific GPQA results of Claude Code (22.99%).» — MarkTechPost, om ml-intern-lanseringen

Agenten kjører som en kontinuerlig loop: den starter med å browse arXiv og Hugging Face Papers, leser metode-seksjoner og følger sitasjonsgrafer. Den søker så Hugging Face Hub for datasettene den har funnet, inspiserer kvaliteten og reformaterer dem for trening. Mangler du lokal compute, kan agenten starte jobber via Hugging Face Jobs. Etter hver treningsrunde leser den evalueringsresultater, diagnostiserer feil som «reward collapse» i RLHF-pipelines og trener på nytt til benchmark-ytelsen forbedrer seg.

Evalueringen ble kjørt mot PostTrainBench, en benchmark fra Universitetet i Tübingen og Max Planck-instituttet som tester om en agent kan post-trene en base-modell innenfor et strikt 10-timers-vindu på én H100 GPU. Agentens progress var skarp — den krysset 27,5 prosent allerede etter tre timer.

Størrelsen på basemodellen er poenget som gjør 32-prosent-resultatet interessant. Mens den bredere PostTrainBench-publikasjonen rapporterte en toppscore på 33 prosent med den større Gemma-3-4B-modellen, fikk ml-intern ut 32 prosent fra den mye mindre Qwen3-1.7B. Det er data-effektivitet som er vanskelig å replikere manuelt i tidsvinduet.

I en helse-domene-test vurderte agenten tilgjengelige medisinske datasett, konkluderte med at kvaliteten var for lav, og skrev et skript som genererte syntetiske treningseksempler med fokus på medisinsk «hedging language» og fleirspråklige akutt-scenarier. Den upsampled deretter dataene før evaluering på HealthBench.

I en matematikk-domene-test implementerte agenten GRPO (Group Relative Policy Optimization), en reinforcement learning-variant med lavere minneforbruk enn standard PPO. Den startet trening på A100-GPUer, overvåket reward-kurver og kjørte ablations før den låste checkpointet. Overvåkings-stacken bruker Trackio, et Hub-native eksperiment-tracker som Hugging Face posisjonerer som open source-alternativ til Weights & Biases.

>_ NØKKELTALL

8,5 % → 32 %

GPQA-score-økning for Qwen3-1.7B på under 10 timer

22,99 %

Claude Codes tilsvarende GPQA-resultat som ml-intern slår

3 timer

Tiden agenten brukte på å krysse 27,5 prosent

Hva bør du gjøre?

Har du en basemodell du vil fine-tune, test ml-intern som baseline før du investerer i manuelt arbeid. Under 10 timer på én H100 er en rimelig eksperiment-kostnad.
Bruker du Weights & Biases i dag, sjekk om Trackio dekker dine behov. Hub-native tracking holder hele eksperiment-loggen innenfor samme økosystem som datasettet og modellen.
GRPO-implementasjonen er synlig i agentens publiserte demoer, verdt å studere hvis du allerede jobber med RLHF og sliter med PPO sitt minnefotavtrykk.

Bakgrunn

Automatisering av ML-forskningsløp er et aktivt forskningsfelt der Anthropic, Google DeepMind og flere har publisert om «AI researchers». Hugging Faces bidrag er at koden er åpen, kjørbar i dag, og integrert med deres infrastruktur for compute og eksperiment-tracking.