OpenAI Integra Geração de Imagens no GPT-4o e Sora, Inaugurando Nova Era Visual na IA

Por Diego Almeida
março 27, 2025

A OpenAI acaba de dar um passo importante rumo à integração total entre texto, imagem e vídeo ao lançar a capacidade de geração de imagens diretamente dentro do GPT-4o — seu modelo mais avançado — além de expandir o suporte visual no Sora, seu sistema de geração de vídeos. A atualização substitui o DALL·E 3 como gerador padrão do ChatGPT, unificando a criação multimodal em um único modelo.

Imagens Como Parte do Raciocínio Multimodal

Diferente dos sistemas anteriores, o GPT-4o trata imagens como parte nativa de seu entendimento multimodal. Isso permite que ele gere visuais com muito mais precisão contextual, fidelidade textual e coerência entre elementos.

A OpenAI destaca que o modelo agora excelente em criações como menus, diagramas, infográficos e layouts de interface, resolvendo uma das grandes limitações de modelos anteriores — a distorção ou ilegibilidade de textos embutidos nas imagens.

Edição Natural e Consistência Visual

O novo sistema permite:

Edição de imagens via linguagem natural, como “mude o fundo para azul” ou “remova os objetos à direita”;
Manutenção de consistência entre iterações, útil em fluxos de design progressivo;
Capacidade de lidar com prompts que envolvem 10 a 20 objetos, mantendo coerência visual.

Essas melhorias tornam o GPT-4o uma ferramenta muito mais poderosa para design, marketing, educação e criação de conteúdo visual assistido por IA.

Disponibilidade e Expansão

A funcionalidade de geração de imagens já está disponível para os usuários dos planos Free, Plus, Pro e Team do ChatGPT. A OpenAI informou que o recurso será expandido em breve para os planos Enterprise e Educacional.

Um Novo Patamar na Geração Visual com IA

Embora o DALL·E 3 tenha sido um marco anterior, ele ficou defasado frente a concorrentes como Midjourney, Stable Diffusion e Leonardo. Com a chegada da geração nativa no GPT-4o, a OpenAI dá um salto qualitativo, trazendo vantagens como:

Melhor integração entre texto e imagem
Geração precisa de longos trechos de texto visual
Raciocínio contextual para aplicações em UX, infográficos e prototipagem visual

Aliado ao Sora, que representa o braço de geração de vídeos da empresa, o movimento posiciona a OpenAI não apenas como concorrente — mas como protagonista na nova fase da IA generativa visual e multimodal.

A era da criação visual por IA, até então fragmentada entre ferramentas, acaba de se consolidar em um único modelo central: o GPT-4o.