Cornell-forskere skiller verdensmodell fra token-prediksjon i transformere

2 til 3 prosentpoeng. Det er gevinsten fire forskere ved Cornells Language, Interaction, and Learning Lab måler når de river fra hverandre to jobber transformeren har gjort samtidig i ni år. Paperet, lagt ut onsdag av Giovanni Monea, Nathan Godey, Kianté Brantley og Yoav Artzi, kaller ideen State-Prediction Separation Hypothesis, ifølge Tech Times.

Hver gang en språkmodell genererer et ord, gjør den to ting på én gang gjennom én residual-strøm. De to jobbene trekker i hver sin retning:

Verdensmodellen trenger stabile, komposisjonelle oppdateringer som fanger fakta og sammenhenger over mange tokens.
Neste-token-prediksjonen trenger et raskt, lokalt signal tilpasset akkurat det neste ordet.

Cornell-arkitekturen løser konflikten med en andre strøm viet kun til verdenstilstand. Prediksjonshodet leser fra den separerte strømmen i stedet for å konkurrere med den. Forskerne kjørte pretrenings-eksperimenter over flere skalaer og gjorde grundige ablasjoner for å utelukke andre forklaringer.

Den dypere konsekvensen ligger utenfor ytelsestallene. Hele feltet mekanistisk tolkbarhet har siden 2021 antatt at den enkle residual-strømmen er riktig nivå å analysere modeller på. En modell med atskilte strømmer for hva den vet og hva den forutsier, er i prinsippet lettere å probe og styre, noe som gjør sikkerhetsspørsmål mer håndterbare.

Det åpne spørsmålet er skala: gevinsten er vist på mindre modeller, ikke i billion-parameter-området der kommersielle systemer lever, og koden var ikke sluppet da paperet kom. For deg som følger arkitektur og tolkbarhet, er poenget at tolkbarhet her flyttes fra etterpåklok analyse til et designvalg tatt før treningen starter.