Der de mest aggressive bildeemodellene det siste året har vokst til 12–20 milliarder parametere og krevd H100-klasse maskinvare, går Baidu motsatt vei. Ernie-Image ligger på 8 milliarder parametere og er ifølge Baidus Ernie Bot-team designet spesifikt for å kunne kjøres på forbruker-GPU-er med 24 GB VRAM — altså en RTX 4090, RTX 3090 eller tilsvarende Apple Silicon-konfigurasjon. Modellen er en single-stream Diffusion Transformer med en egen lett Prompt Enhancer som utvider korte prompter til mer strukturerte beskrivelser før generering.
Baidu selv hevder state-of-the-art blant åpne modeller på tekstgjengivelse, spesielt i flerspråklig bruk. Ernie-Image håndterer kinesisk, engelsk, japansk og koreansk med det selskapet beskriver som tydelig typografi og presise strøk — plassert i samme tier som lukkede kommersielle modeller som NanoBanana. Til denne klassen bruksområder, typografi i plakater og flerpanel-tegneserier, har åpne modeller tidligere tapt klart mot stengte.
Infrastrukturen rundt modellen er på plass fra dag én. Vekter og inference-kode er publisert på Hugging Face. ComfyUI-workflow støttes ut av boksen, og Baidu har samarbeidet med Unsloth om en GGUF-kvantisert variant som kutter VRAM-behovet ytterligere. Før den offentlige åpen kildekode-slippet gikk modellen gjennom en to ukers intern testperiode med over 30 selskaper og 20 designere.
Hva bør du gjøre?
- Har du en 24 GB GPU liggende: last ned vektene fra Hugging Face og kjør modellen via ComfyUI. Ett konkret bruksområde er flerspråklige plakater og tegneseriepaneler der eksisterende SDXL-varianter sliter med tekst.
- Bruker du NanoBanana eller Midjourney i dag: kjør en liten benchmark av 20–30 prompter mot Ernie-Image. Modellen er spesielt sterk på multi-panel-layout og komplekse instruksjoner.
- Hvis GPU-minnet er knapt: bruk Unsloth-varianten med GGUF-kvantisering. Den kjører på langt mindre VRAM enn 24 GB med moderat kvalitetstap.