OpenAI lanserer ChatGPT Images 2.0 med skarpere tekst-i-bilde og bedre instruksjonsforståelse

OpenAI rullet i går ut ChatGPT Images 2.0, en oppdatert versjon av bildegenereringslaget som ligger direkte i ChatGPT. Hovedvektleggingen fra OpenAI selv er tre ting: mer presis tekst inni bilder (lenge en svakhet for DALL-E og etterfølgerne), bedre instruksjonsforståelse i lengre prompt, og mer konsistent utseende når du ber om flere bilder i samme serie eller karakter.

For norske KI-byggere er det særlig tekst-i-bilde-forbedringen som flytter praktisk verdi. Tidligere har du måttet ut til eksterne modeller som FLUX, Ideogram eller Recraft når kunden trengte en logo, en skjermbilde-mock med faktisk lesbar UI-tekst, eller en infografikk. Hvis OpenAIs nye versjon leverer på det punktet, forsvinner en friksjon i pipeline-en.

Integrasjonen er fortsatt inne i ChatGPT-grensesnittet og API. Det betyr at du kan kalle bildegenereringen fra egne agenter uten å bytte leverandør, men du betaler fortsatt per bilde i tillegg til token-kostnaden for prompten som går inn.

Hva bør du gjøre?

Kjør dine vanligste prompts mot 2.0 før du bytter. Spesielt: test tekstrendering og karakterkonsistens over flere generasjoner.
Sjekk om prisen per bilde har endret seg i /v1/images/generations før du lar en agent pøse ut bilder i løkker.
Hvis du bruker FLUX eller Ideogram lokalt for tekst-i-bilde: behold dem til du har verifisert at 2.0 faktisk er bedre på ditt use case. Lanseringspåstander er én ting, reell konsistens noe annet.