A revolução da inteligência artificial acaba de ganhar um novo protagonista inesperado: dois estudantes universitários sul-coreanos. Com zero investimento inicial, eles desenvolveram o Dia, um modelo de texto-para-fala (TTS) de código aberto que, segundo testes iniciais, supera plataformas consolidadas como ElevenLabs Studio e Sesame CSM‑1B em tempo de resposta, expressividade e capacidade de interpretar elementos não verbais.
Criado pela startup Nari Labs, o modelo Dia conta com 1,6 bilhão de parâmetros e oferece recursos avançados como tons emocionais, múltiplos perfis de voz e a habilidade de simular sons não verbais — incluindo risos, tosses e até gritos. Esse nível de sofisticação, normalmente associado a empresas com estruturas robustas, surpreende ainda mais por ter sido atingido por dois jovens sem experiência corporativa e sem recursos financeiros.
A inspiração veio do NotebookLM, da Google, e o acesso à infraestrutura de computação foi viabilizado pelo programa TPU Research Cloud, também da gigante americana. Essa combinação de acesso a ferramentas de ponta e ambição criativa deu origem a um modelo que desafia as maiores empresas do setor.
Além do modelo open-source, a Nari Labs pretende expandir sua atuação com o lançamento de um aplicativo voltado à criação de conteúdo social e remixagem de áudio, tornando a tecnologia mais acessível e prática para criadores digitais.
Mais do que uma inovação técnica, Dia representa um marco simbólico: a validação da ideia de que, no cenário atual da IA, é possível construir soluções de ponta mesmo fora dos grandes centros e sem capital inicial. Como destacou o próprio CEO Toby Kim, o projeto é a prova de que o “você pode simplesmente criar coisas”, frase popularizada por Sam Altman, se torna cada vez mais real com o avanço das tecnologias de código aberto e da democratização do acesso ao aprendizado.