Google Expande Capacidades Visuais do Gemini Flash para Geração e Edição de Imagens

Por Diego Almeida
março 13, 2025

A Google deu mais um passo na evolução da inteligência artificial ao lançar capacidades avançadas de geração e edição de imagens dentro do modelo Gemini 2.0 Flash. Diferente de abordagens anteriores, que exigiam sistemas separados para criação visual, a novidade permite que usuários gerem e modifiquem imagens diretamente dentro do modelo de linguagem, tornando a interação mais fluida e integrada.

O Que Há de Novo no Gemini Flash 2.0?

A nova versão, chamada 2.0-flash-exp, já está disponível via API e no Google AI Studio, oferecendo suporte para:

Geração de imagens e textos dentro de uma única conversa
Edição de imagens guiada por comandos em linguagem natural
Manutenção da consistência de personagens e conceitos em interações multimodais

Com essa atualização, os usuários podem, por exemplo, criar uma história ilustrada e modificar suas imagens conforme conversam com a IA. A Google também destaca que o Gemini 2.0 Flash supera concorrentes na renderização de textos em imagens, sendo uma ferramenta promissora para criação de anúncios, posts para redes sociais e outros designs que exigem precisão tipográfica.

O Impacto da IA Multimodal

Esse avanço sinaliza uma transformação na forma como o conteúdo visual é gerado por IA. Em vez de depender exclusivamente de modelos de geração de imagens dedicados, a tendência é que modelos de linguagem avancem para compreender e produzir imagens de maneira nativa, eliminando a barreira entre texto e visual.

Assim como os modelos de linguagem transformaram a interação com texto, a Google aposta que a edição de imagens será a próxima fronteira a ser conquistada por interfaces de IA baseadas em diálogo.