Hvor mye filtrert webtekst trengs egentlig for å trene en moderne språkmodell? 44 terabytes, eller cirka 15 billioner tokens, ifølge How LLMs Work, en interaktiv visualisering som havnet på topp av Show HN i går med 235 oppstemmer. Siden er bygget på Andrej Karpathys forelesningsserie og lar deg klikke gjennom hver fase som inngår i moderne KI-systemer.
Karpathy, tidligere forskningsdirektør hos Tesla og medgrunnlegger av OpenAI, publiserte sin tre-timers gjennomgang av LLM-arkitektur i fjor. Forelesningen er omfattende, men tekstform passer bedre til repeterende lesning. Den nye siden splitter materialet i fire kapitler: pre-training, base model, post-training og inference. Hver del har klikkbare illustrasjoner og live demoer.
I tokeniserings-seksjonen ser du hvordan «running» splittes i «run» + «ning» med Byte Pair Encoding. I inference-delen kan du justere temperature og se hvordan sannsynlighetsfordelingen over de 100 277 GPT-4-tokene endrer seg i sanntid. Post-training-delen forklarer forskjellen mellom Supervised Fine-Tuning og RLHF med konkrete eksempel-samtaler hentet fra ekte labeler-instruksjoner.
«Modellen tenker ikke på hva den skal si. Den beregner en sannsynlighetsfordeling over alle mulige neste tokens og sampler fra den.» — How LLMs Work, ynarwal.github.io
For deg som bygger egen agent og vil forstå hvorfor temperature 0.7 fungerer best, eller hvorfor halusinasjoner oppstår etter modellens kunnskaps-cutoff, er dette billigere enn å lese forskningsartikler. Spesielt nyttig for lag som onboarder nye utviklere på LLM-konsepter, der du kan dele én lenke i stedet for fem PDF-er.
Hva bør du gjøre?
- Bruk siden som onboarding-materiale for nye lagmedlemmer som skal jobbe med LLM-er, særlig RLHF-kapittelet.
- Klikk gjennom inference-delen før du justerer temperature i din egen agent. Effekten blir umiddelbart synlig.
- Sjekk Karpathys YouTube-kanal hvis du heller vil ha den lengre videoutgaven av samme materiale.