Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
CnTechPost · 16.4., 16:23 · verktøy

Baidu open-sourcer Ernie-Image: 8 milliarder parametere kjører på 24 GB VRAM

SYNOPSIS_GENERERT

Baidu åpner Ernie-Image, en Diffusion Transformer med 8 milliarder parametere som kjører på forbrukergrafikkort med 24 GB VRAM og matcher lukkede modeller som NanoBanana i tekstgjengivelse.

Der de mest aggressive bildeemodellene det siste året har vokst til 12–20 milliarder parametere og krevd H100-klasse maskinvare, går Baidu motsatt vei. Ernie-Image ligger på 8 milliarder parametere og er ifølge Baidus Ernie Bot-team designet spesifikt for å kunne kjøres på forbruker-GPU-er med 24 GB VRAM — altså en RTX 4090, RTX 3090 eller tilsvarende Apple Silicon-konfigurasjon. Modellen er en single-stream Diffusion Transformer med en egen lett Prompt Enhancer som utvider korte prompter til mer strukturerte beskrivelser før generering.

Baidu selv hevder state-of-the-art blant åpne modeller på tekstgjengivelse, spesielt i flerspråklig bruk. Ernie-Image håndterer kinesisk, engelsk, japansk og koreansk med det selskapet beskriver som tydelig typografi og presise strøk — plassert i samme tier som lukkede kommersielle modeller som NanoBanana. Til denne klassen bruksområder, typografi i plakater og flerpanel-tegneserier, har åpne modeller tidligere tapt klart mot stengte.

>_ NØKKELTALL
8 mrd. parametere
under halvparten av flere konkurrerende bildemodeller
24 GB VRAM
minimumskravet for å kjøre full modell
4 språk
kinesisk, engelsk, japansk, koreansk med SOTA-tekstgjengivelse
Apache 2.0
vekter og inference-kode på Hugging Face

Infrastrukturen rundt modellen er på plass fra dag én. Vekter og inference-kode er publisert på Hugging Face. ComfyUI-workflow støttes ut av boksen, og Baidu har samarbeidet med Unsloth om en GGUF-kvantisert variant som kutter VRAM-behovet ytterligere. Før den offentlige åpen kildekode-slippet gikk modellen gjennom en to ukers intern testperiode med over 30 selskaper og 20 designere.

Hva bør du gjøre?

  1. Har du en 24 GB GPU liggende: last ned vektene fra Hugging Face og kjør modellen via ComfyUI. Ett konkret bruksområde er flerspråklige plakater og tegneseriepaneler der eksisterende SDXL-varianter sliter med tekst.
  2. Bruker du NanoBanana eller Midjourney i dag: kjør en liten benchmark av 20–30 prompter mot Ernie-Image. Modellen er spesielt sterk på multi-panel-layout og komplekse instruksjoner.
  3. Hvis GPU-minnet er knapt: bruk Unsloth-varianten med GGUF-kvantisering. Den kjører på langt mindre VRAM enn 24 GB med moderat kvalitetstap.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN