Meta slapp 5. april Llama 4 Scout og Llama 4 Maverick, begge bygget på mixture-of-experts-arkitektur (MoE) og trent som multimodale modeller fra bunnen av. Scout har 17 milliarder aktive parametere fordelt på 16 eksperter, med et kontekstvindu på 10 millioner tokens, det lengste i noen åpen modell. Med Int4-kvantisering får den plass på én enkelt H100 GPU.
Maverick skalerer opp til 128 eksperter og 400 milliarder totale parametere, og konkurrerer direkte med GPT-4o og Gemini 2.0 Flash på benchmarks. Begge modellene er trent på over 30 billioner tokens fordelt på 200 språk, ti ganger mer flerspråklig dekning enn Llama 3.
Det som skiller Llama 4 fra mange konkurrenter er early fusion-arkitekturen: tekst og bilde prosesseres sammen fra de tidligste lagene, i stedet for å boltes på via adaptere. For utviklere betyr dette mer sammenhengende multimodal forståelse.
Meta har også avslørt Llama 4 Behemoth, en lærermodell med 288 milliarder aktive parametere og cirka 2 billioner totale. Den er fortsatt under trening, men slår allerede GPT-4.5 og Claude Sonnet 3.7 på STEM-benchmarks.