Anthropic Lança Desafio Para Hackers Tentarem Quebrar Nova Camada de Segurança da IA

Por Diego Almeida
fevereiro 4, 2025

Com o crescimento da inteligência artificial, proteger modelos contra manipulações e usos indevidos se tornou uma prioridade. A Anthropic, criadora do Claude, apresentou o Constitutional Classifiers, um novo sistema de segurança baseado em IA que resiste a jailbreaks e ataques avançados.

Para provar sua eficácia, a empresa convidou hackers e especialistas em segurança para testar o sistema, oferecendo uma recompensa de US$ 15.000 para quem conseguisse quebrá-lo.

Testes e Resultados

O Constitutional Classifiers usa IA para gerar dados de treinamento em múltiplos idiomas e estilos de escrita, detectando tentativas de jailbreak antes que causem danos.
Nos testes, bloqueou 95,6% dos ataques, enquanto modelos convencionais só conseguiram impedir 14% das tentativas.
183 caçadores de bugs passaram 3.000 horas tentando quebrar o sistema, sem sucesso.
Agora, a Anthropic abriu o teste para o público até 10 de fevereiro, incentivando mais tentativas de invasão.

Por Que Isso Importa?

A segurança da IA tem sido uma preocupação crescente à medida que os modelos ficam mais avançados. O método da Anthropic vai além do treinamento tradicional, utilizando IA para prever e impedir ataques.

Ao abrir o sistema para testes públicos, a empresa não só desafia especialistas, mas também reforça seu compromisso com um futuro mais seguro para a IA. Se o Constitutional Classifiers se provar eficaz em escala, pode se tornar um novo padrão na segurança de modelos de IA.