Uma equipe de pesquisadores da NYU, MIT e Google apresentou um avanço significativo na geração de imagens por IA ao integrar ideias de modelos de raciocínio, como o o1 da OpenAI e o Gemini 2.0 da Google, diretamente no processo de geração. Em seu estudo intitulado “Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps”, os cientistas demonstram como otimizar o processo de geração sem a necessidade de treinar novamente os modelos de IA.
Como Funciona a Nova Abordagem
A metodologia baseia-se em dois componentes principais:
- Verificadores de Qualidade: Ferramentas que avaliam aspectos das imagens geradas, como qualidade estética, correspondência ao prompt textual e critérios humanos de avaliação.
- Algoritmos de Busca: Técnicas que otimizam o processo de geração para criar imagens melhores durante as etapas de difusão, sem alterar a estrutura do modelo.
Esses elementos trabalham juntos para melhorar as imagens enquanto elas estão sendo geradas, aproveitando os passos de remoção de ruído típicos de modelos de difusão.
Os Verificadores de Qualidade
Os pesquisadores desenvolveram um conjunto de verificadores que avaliam diferentes aspectos das imagens:
- Aesthetic Score: Mede a qualidade visual geral, priorizando imagens mais artísticas.
- CLIPScore: Verifica o quão bem a imagem gerada corresponde ao texto do prompt.
- ImageReward: Avalia as imagens com base em critérios semelhantes aos humanos.
Esses verificadores foram combinados em um “ensemble”, permitindo uma análise mais abrangente e refinada das imagens.
Os Algoritmos de Busca
Três algoritmos de busca foram testados:
- Random Search: Gera várias versões de uma imagem e escolhe a melhor. É rápido, mas pode criar imagens muito semelhantes.
- Zero-Order Search: Começa com uma imagem aleatória e busca melhorias nas proximidades.
- Search over Paths: A abordagem mais avançada, otimiza todo o processo de geração, ajustando várias etapas de difusão.
Resultados Promissores
Os testes mostraram que todas as abordagens melhoraram significativamente a qualidade das imagens, permitindo que modelos menores, com otimização, superassem modelos maiores sem ela. O método mais eficiente encontrou um equilíbrio ao adicionar cerca de 50 passos extras no processo de geração, melhorando a qualidade sem sacrificar excessivamente a velocidade.
Preferências dos Verificadores
Os resultados também destacaram como diferentes verificadores influenciam as imagens geradas:
- Aesthetic Score: Favorece imagens mais artísticas e visualmente agradáveis.
- CLIPScore: Produz imagens mais realistas e que se alinham com precisão ao texto do prompt.
Impacto no Campo de IA Generativa
Essa abordagem representa um avanço significativo para a geração de imagens, permitindo que desenvolvedores melhorem resultados sem a necessidade de grandes investimentos em hardware ou treinamento adicional. Inspirada em técnicas de modelos de raciocínio, ela oferece aos usuários maior controle sobre o tipo de resultado desejado, seja artístico ou realista.
A integração de verificadores e algoritmos de busca diretamente no processo de geração abre novas possibilidades para aplicações práticas de IA generativa, desde design gráfico até marketing, mostrando que qualidade e eficiência podem caminhar juntas com as inovações corretas.