ByteDances iLLaDA: diffusjonsbasert språkmodell tar innpå Qwen2.5

Et snitt på 63,9 poeng over åtte benchmarks er nok til at ByteDance og Renmin Universitys nye iLLaDA legger seg så vidt foran den autoregressive Qwen2.5 7B på 63,3, ifølge forskningsartikkelen bak modellen. iLLaDA er en tett 8B-modell trent på 12 billioner tokens, opp fra 2,3 billioner for forgjengeren LLaDA.

Der GPT, Claude og Qwen genererer tekst autoregressivt, ett ord om gangen fra venstre mot høyre, starter en diffusjonsmodell med en rekke maskerte plassholdere og raffinerer dem parallelt over flere runder. Hver posisjon kan se alle andre samtidig, slik bildemodeller former et motiv fra støy. iLLaDA er del av en bredere bevegelse: Google DeepMind slapp DiffusionGemma i juni 2026, omtrent fire ganger raskere, men svakere på MMLU og kode enn en tilsvarende autoregressiv modell.

Forspranget forsvinner etter finjustering. iLLaDA-Instruct lander på 67,1 poeng mot Qwen2.5 7B Instruct på 77,1, der matte og kode står for mesteparten av gapet. Forskerne tilskriver forskjellen ekstra forsterkningslæring i Qwen2.5 som iLLaDA mangler, og noterer at modellen kan sette seg fast i resonneringssløyfer på vanskelige oppgaver.

>_ NØKKELTALL

74,8: iLLaDA på MMLU, mot 71,9 for Qwen2.5 7B

71,3: iLLaDA på BBH, mot 63,9 for Qwen2.5 7B

63,9: iLLaDA i snitt over åtte benchmarks, mot 63,3 for Qwen2.5 7B

For de som følger lokale modeller er poenget ikke at iLLaDA vinner, men at en diffusjonsarkitektur trent fra bunnen nå holder følge med autoregressive modeller i samme vektklasse, en retning som på sikt kan gi raskere generering.