OpenAI Lança Modelos de Voz com Estilo Personalizável e Reconhecimento de Fala Aprimorado

Por Diego Almeida
março 25, 2025

A OpenAI acaba de anunciar uma nova geração de modelos de áudio voltados para desenvolvedores que buscam integrar vozes de IA mais personalizáveis e naturais em seus aplicativos. A novidade permite tanto gerar voz a partir de texto com estilo específico quanto realizar transcrição de voz com precisão aprimorada.

Personalização de Estilo de Fala com Texto

O destaque vai para o novo modelo gpt-4o-mini-tts, capaz de adaptar seu estilo de fala com base em comandos simples, como:

“Fale como um pirata”
“Use voz suave de história para dormir”
“Adote um tom de vendedor animado”

Essa capacidade abre espaço para interações mais naturais, diversificadas e adaptadas ao contexto, ampliando o potencial de uso de agentes de voz em jogos, educação, marketing, atendimento e muito mais.

Transcrição Avançada com GPT-4o-transcribe

A OpenAI também lançou novos modelos de speech-to-text (fala para texto), batizados de GPT-4o-transcribe, que superam o desempenho dos modelos Whisper em precisão, confiabilidade e suporte a múltiplos idiomas. Isso eleva o padrão para ferramentas de transcrição automatizada em aplicações corporativas e pessoais.

openai.fm: Teste Público de Estilos de Voz

A empresa lançou ainda o openai.fm, uma plataforma de demonstração onde qualquer usuário pode testar os estilos de voz disponíveis e experimentar os novos recursos em tempo real. É uma forma interativa de demonstrar o poder e a flexibilidade dos modelos, mesmo para quem não é desenvolvedor.

Disponibilidade e Integração

Os novos modelos estão disponíveis via API da OpenAI e podem ser integrados facilmente por meio do Agents SDK, voltado para desenvolvedores que estão construindo assistentes de voz personalizados.

Por Que Isso Importa?

Com a chegada desses modelos, a OpenAI se posiciona para competir no mercado em rápido crescimento de agentes de voz com inteligência artificial, permitindo que marcas e desenvolvedores criem experiências mais naturais, expressivas e específicas para seus usuários.

Apesar dos avanços, críticos apontam que as vozes da OpenAI ainda não alcançam o nível de realismo de concorrentes como Sesame ou ElevenLabs — mas o salto em personalização coloca a empresa em um novo patamar na corrida pela voz perfeita em IA.