Baidu open-sourcer Ernie-Image: 8 milliarder parametere kjører på 24 GB VRAM

Der de mest aggressive bildeemodellene det siste året har vokst til 12–20 milliarder parametere og krevd H100-klasse maskinvare, går Baidu motsatt vei. Ernie-Image ligger på 8 milliarder parametere og er ifølge Baidus Ernie Bot-team designet spesifikt for å kunne kjøres på forbruker-GPU-er med 24 GB VRAM — altså en RTX 4090, RTX 3090 eller tilsvarende Apple Silicon-konfigurasjon. Modellen er en single-stream Diffusion Transformer med en egen lett Prompt Enhancer som utvider korte prompter til mer strukturerte beskrivelser før generering.

Baidu selv hevder state-of-the-art blant åpne modeller på tekstgjengivelse, spesielt i flerspråklig bruk. Ernie-Image håndterer kinesisk, engelsk, japansk og koreansk med det selskapet beskriver som tydelig typografi og presise strøk — plassert i samme tier som lukkede kommersielle modeller som NanoBanana. Til denne klassen bruksområder, typografi i plakater og flerpanel-tegneserier, har åpne modeller tidligere tapt klart mot stengte.

>_ NØKKELTALL

8 mrd. parametere

under halvparten av flere konkurrerende bildemodeller

24 GB VRAM

minimumskravet for å kjøre full modell

4 språk

kinesisk, engelsk, japansk, koreansk med SOTA-tekstgjengivelse

Apache 2.0

vekter og inference-kode på Hugging Face

Infrastrukturen rundt modellen er på plass fra dag én. Vekter og inference-kode er publisert på Hugging Face. ComfyUI-workflow støttes ut av boksen, og Baidu har samarbeidet med Unsloth om en GGUF-kvantisert variant som kutter VRAM-behovet ytterligere. Før den offentlige åpen kildekode-slippet gikk modellen gjennom en to ukers intern testperiode med over 30 selskaper og 20 designere.

Hva bør du gjøre?

Har du en 24 GB GPU liggende: last ned vektene fra Hugging Face og kjør modellen via ComfyUI. Ett konkret bruksområde er flerspråklige plakater og tegneseriepaneler der eksisterende SDXL-varianter sliter med tekst.
Bruker du NanoBanana eller Midjourney i dag: kjør en liten benchmark av 20–30 prompter mot Ernie-Image. Modellen er spesielt sterk på multi-panel-layout og komplekse instruksjoner.
Hvis GPU-minnet er knapt: bruk Unsloth-varianten med GGUF-kvantisering. Den kjører på langt mindre VRAM enn 24 GB med moderat kvalitetstap.