A OpenAI acaba de dar um passo importante rumo à integração total entre texto, imagem e vídeo ao lançar a capacidade de geração de imagens diretamente dentro do GPT-4o — seu modelo mais avançado — além de expandir o suporte visual no Sora, seu sistema de geração de vídeos. A atualização substitui o DALL·E 3 como gerador padrão do ChatGPT, unificando a criação multimodal em um único modelo.
Imagens Como Parte do Raciocínio Multimodal
Diferente dos sistemas anteriores, o GPT-4o trata imagens como parte nativa de seu entendimento multimodal. Isso permite que ele gere visuais com muito mais precisão contextual, fidelidade textual e coerência entre elementos.
A OpenAI destaca que o modelo agora excelente em criações como menus, diagramas, infográficos e layouts de interface, resolvendo uma das grandes limitações de modelos anteriores — a distorção ou ilegibilidade de textos embutidos nas imagens.
Edição Natural e Consistência Visual
O novo sistema permite:
- Edição de imagens via linguagem natural, como “mude o fundo para azul” ou “remova os objetos à direita”;
- Manutenção de consistência entre iterações, útil em fluxos de design progressivo;
- Capacidade de lidar com prompts que envolvem 10 a 20 objetos, mantendo coerência visual.
Essas melhorias tornam o GPT-4o uma ferramenta muito mais poderosa para design, marketing, educação e criação de conteúdo visual assistido por IA.
Disponibilidade e Expansão
A funcionalidade de geração de imagens já está disponível para os usuários dos planos Free, Plus, Pro e Team do ChatGPT. A OpenAI informou que o recurso será expandido em breve para os planos Enterprise e Educacional.
Um Novo Patamar na Geração Visual com IA
Embora o DALL·E 3 tenha sido um marco anterior, ele ficou defasado frente a concorrentes como Midjourney, Stable Diffusion e Leonardo. Com a chegada da geração nativa no GPT-4o, a OpenAI dá um salto qualitativo, trazendo vantagens como:
- Melhor integração entre texto e imagem
- Geração precisa de longos trechos de texto visual
- Raciocínio contextual para aplicações em UX, infográficos e prototipagem visual
Aliado ao Sora, que representa o braço de geração de vídeos da empresa, o movimento posiciona a OpenAI não apenas como concorrente — mas como protagonista na nova fase da IA generativa visual e multimodal.
A era da criação visual por IA, até então fragmentada entre ferramentas, acaba de se consolidar em um único modelo central: o GPT-4o.