I dag ligger den samme modellens eval-scorer spredt i artikler, leaderboards, blogginnlegg og kjøre-logger, hver i sitt eget format. Etter en integrasjon som EvalEval Coalition og Hugging Face annonserte, samles de i stedet på selve modellsiden med en kildelenke tilbake til et strukturert register. EvalEval-koalisjonen kaller registeret «Every Eval Ever» (EEE), lansert i februar 2026.
Problemet integrasjonen løser er konkret: samme modell på samme benchmark gir ofte ulike tall avhengig av hvem som kjørte den og hvordan. LLaMA 65B er rapportert til både 63,7 og 48,8 på MMLU. Avvikene stammer typisk fra evalueringsinnstillinger som sjelden rapporteres, som few-shot-oppsett, generation-config og verktøyversjon.
EEE er ett JSON-skjema som registrerer hvem som kjørte evalen, hvilken modell, hvordan den ble aksessert, generation-innstillinger og hva metrikken faktisk måler. Registeret har vokst til rundt 229 000 eval-resultater på tvers av over 22 000 modeller og 2 200 benchmarks, hentet fra 31 ulike rapporteringsformater. Å reprodusere kjøringene fra bunnen ville ifølge teamet kostet hundretusenvis av dollar.
For deg som velger modell betyr det at en score på modellkortet nå bærer et merke som sier om den er forfatter-innsendt, community-innsendt eller uavhengig verifisert, med lenke til den fulle EEE-posten der config og instans-data ligger. En konverter skriver de små YAML-filene Hugging Face forventer fra eksisterende EEE-poster, og håndterer foreløpig fire offisielle benchmarks: MMLU-Pro, GPQA, HLE og GSM8K. Hvem som helst kan legge til en score på en hvilken som helst modell ved å åpne en pull request med riktig YAML-fil.
Verdien for modellvalg er at et tall du leser kan spores tilbake til hvordan det ble produsert, ikke bare hvor stort det er. En score uten config er vanskelig å stole på når du skal sammenligne to modeller for din egen bruk, og kildesporingen gjør det mulig å se om to tall i det hele tatt er sammenlignbare.