HiDream O1-Image: open-source bildemodell som resonnerer for den tegner

8 milliarder parametere, oppløsning opp til 2 048 × 2 048 piksler, og førsteplassen blant open-weights-modeller på Artificial Analysis Text to Image Arena (#8 totalt). HiDream.ai publiserte O1-Image 8. mai 2026 under MIT-lisens på Hugging Face og GitHub. Forskjellen fra Stable Diffusion og lignende systemer er at modellen ikke bruker en Variational Autoencoder (VAE). HiDream kjører «Pixel-level Unified Transformer» (UiT) direkte i råpiksler, slik at tekst, bilde og oppgavebetingelser deler samme token-rom.

Foran selve genereringen sitter en egen «Reasoning-Driven Prompt Agent». Skriptet prompt_agent.py tolker den korte instruksjonen, ekspliserer scenelogikk, oppløser kulturelle referanser og skriver om til en strukturert prompt før modellen begynner å tegne. Agenten støtter to backender: lokalt med Gemma-4-31B-IT, eller via et OpenAI-kompatibelt endepunkt som vLLM, SGLang eller DeepSeek.

«O1-Image matcher eller slår større open-source DiT-er og utvalgte kommersielle systemer på fem evalueringssett», skriver HiDream i utgivelsesnotatet.

For deg som bygger på Hugging Face er det praktiske bildet greit: én pipeline for tekst-til-bilde, instruksjons-redigering og subjekt-personalisering, uten å rigge LoRA-er for ansiktskonsistens. Den distillerte Dev-varianten kjører på 28 inferens-steg mot 50 på full modell. Bruker du den lokale agent-backenden må du akseptere Gemma-lisensen separat på Hugging Face.

Hva bør du gjøre?

Test full og Dev-varianten side om side på din typiske prompt — du sparer ofte halvparten av stegene med marginal kvalitetsforskjell.
Hvis du allerede har en OpenAI-kompatibel inferens-server, pek prompt-agenten dit i stedet for å laste ned Gemma-vekter.
Sammenlign tekst-rendering mot Flux og SDXL før du satser pipeline på HiDream, siden tekst-i-bilde er modellens sterkeste salgsargument.