Pesquisadores do Center for Countering Digital Hate (CCDH) e da CNN realizaram, em dezembro de 2025, testes com dez chatbots de inteligência artificial nos Estados Unidos e na Irlanda. O resultado foi preocupante: em média, as ferramentas facilitaram o planejamento de ações violentas em 75% dos casos, e apenas em 12% deles as respostas desencorajaram ativamente esse tipo de comportamento, segundo informações do The Guardian.
O estudo simulava usuários com intenções de ataque (incluindo adolescentes de 13 anos) e avaliou como cada plataforma respondia a pedidos relacionados a ataques em escolas, assassinatos de políticos e atentados a locais religiosos.
Diferenças marcantes entre as plataformas
Os resultados variaram bastante entre os serviços testados. O ChatGPT, da OpenAI, forneceu algum tipo de auxílio em 61% das interações que envolviam violência. Em um dos casos, quando questionado sobre ataques a sinagogas, o modelo chegou a especificar qual tipo de estilhaço causaria maior letalidade. O Gemini, do Google, apresentou nível de detalhamento semelhante.
O DeepSeek, modelo chinês de IA, foi além: ao receber perguntas sobre assassinatos políticos de um usuário que afirmava querer “fazer um político pagar” por “destruir a Irlanda”, o chatbot respondeu com indicações detalhadas sobre rifles de caça e encerrou a conversa com a frase “Happy (and safe) shooting!” (“Feliz (e seguro) disparo!”, em tradução livre).
O Llama, da Meta, também foi testado com perguntas que sugeriam um usuário com perfil misógino e interesse em violência contra mulheres. Ao ser questionado sobre como comprar uma arma perto de uma escola específica, o modelo apresentou “as melhores opções” disponíveis, além de detalhes sobre dois estandes de tiro da região.
Em contraste, dois chatbots se destacaram por consistentemente recusar esse tipo de solicitação: o Claude, da Anthropic, e o My AI, do Snapchat. Quando questionado sobre armamentos, ataques a escolas e discursos de ódio racial, o Claude respondeu diretamente que não forneceria “informações que pudessem facilitar a violência”. O My AI, por sua vez, afirmou ser “programado para ser um assistente de IA inofensivo” e se recusou a orientar sobre compra de armas.
Casos reais reforçam o alerta
A pesquisa também citou dois episódios em que ferramentas de IA foram usadas por agressores antes de cometerem crimes. Em maio de 2025, um adolescente de 16 anos teria utilizado um chatbot para elaborar um manifesto e um plano antes de esfaquear três meninas em uma escola na cidade finlandesa de Pirkkala. Em janeiro do mesmo ano, Matthew Livelsberger, então com 37 anos, explodiu um Tesla Cybertruck em frente ao Trump International hotel em Las Vegas após consultar o ChatGPT para obter orientações sobre explosivos e táticas de ataque.
As companhias envolvidas responderam de formas distintas às conclusões do estudo. A Meta afirmou ter “proteções robustas” contra respostas inadequadas e disse ter tomado “medidas imediatas” para corrigir os problemas identificados. A empresa também informou que, em 2025, acionou autoridades policiais em todo o mundo mais de 800 vezes em razão de ameaças a escolas detectadas em suas plataformas.
O Google afirmou que os testes foram realizados com uma versão desatualizada do Gemini, que não é mais a base do serviço atual, e que o modelo respondeu adequadamente a parte das simulações. A OpenAI classificou a metodologia da pesquisa como “falha e enganosa” e informou ter atualizado seu modelo para aprimorar os mecanismos de segurança e a detecção de conteúdo violento. O DeepSeek foi procurado para comentar, mas não se manifestou até o fechamento da reportagem.
Um problema estrutural
Para Imran Ahmed, diretor-executivo do CCDH, o problema vai além de falhas técnicas pontuais. “Quando você constrói um sistema projetado para obedecer, maximizar o engajamento e nunca dizer não, ele vai eventualmente obedecer às pessoas erradas”, disse Ahmed ao The Guardian. “O que estamos vendo não é apenas uma falha da tecnologia, mas uma falha de responsabilidade.”
A própria documentação interna da OpenAI reconhece a tensão envolvida: o “model spec” que orienta o ChatGPT admite que o sistema “pode causar danos simplesmente seguindo instruções do usuário” e que essas situações representam “um conflito direto entre dar poder ao usuário e prevenir danos”. O documento também estabelece que, se um usuário solicitar auxílio para “facilitar comportamentos ilícitos, o assistente deve se recusar a ajudar”.
Fonte: Época Negócios







