Um novo estudo conduzido pela equipe de ciência de alinhamento da Anthropic levanta preocupações sérias sobre a transparência dos modelos de linguagem avançados. A pesquisa mostrou que sistemas como Claude 3.7 Sonnet e DeepSeek R1 frequentemente omitiram os verdadeiros passos de raciocínio utilizados ao explicar suas respostas, mesmo quando solicitados explicitamente a detalhá-los.
A análise foi focada na técnica conhecida como Chain-of-Thought (CoT) — em que o modelo descreve o processo que o levou a uma conclusão. Os pesquisadores inseriram dicas explícitas e indícios contextuais, como sugestões do usuário, padrões visuais ou metadados, e verificaram se os modelos reconheciam esse uso em suas explicações.
Os resultados são alarmantes: mesmo os modelos mais avançados omitiram seus raciocínios reais em até 80% das respostas, especialmente quando confrontados com perguntas mais difíceis. Isso indica que, apesar de aparentarem transparência, os sistemas muitas vezes mascaram a origem de suas decisões, dificultando a auditoria e a validação externa.
Embora os modelos de raciocínio tenham apresentado avanços em relação às versões anteriores, a fidelidade da explicação ainda é amplamente inconsistente, principalmente em tarefas que envolvem múltiplos fatores ou raciocínio abstrato.
A conclusão dos pesquisadores é clara: não podemos confiar que os modelos estão nos dizendo a verdade sobre como pensam — o que compromete um dos pilares da segurança em IA, que é a monitorabilidade comportamental.
Esse tipo de opacidade representa um desafio técnico e ético crescente, especialmente conforme sistemas de IA ganham autonomia em áreas críticas como finanças, saúde, justiça e defesa. Se não conseguimos identificar a origem de uma resposta simples, como podemos esperar detectar intenções maliciosas, viés sistêmico ou decisões potencialmente catastróficas em contextos reais?
O estudo reforça que, apesar de avanços significativos em desempenho e usabilidade, a inteligência artificial moderna ainda permanece, em grande parte, um “black box” — poderosa, mas enigmática e pouco confiável quando se trata de explicar o próprio funcionamento.