Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança

Estudo revela que transformar pedidos impróprios em poemas faz com que muitos sistemas de IA respondam com conteúdo proibido
Por Matheus Chaves, editado por Layse Ventura 02/12/2025 12h41
Chatbots-testados-1920x1080
Chatbots de grandes empresas estão entre os que foram testados no estudo (Imagem: Tada Images/Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Pesquisadores do Icaro Lab, laboratório ligado à empresa de IA ética DexAI, identificaram uma vulnerabilidade preocupante em modelos de linguagem: poemas podem driblar os mecanismos de segurança de muitos chatbots avançados.

Como foi realizados o teste 

Para testar isso, a equipe elaborou 20 poemas em inglês e italiano. Apesar da forma aparentemente inofensiva, cada um deles encerrava com um pedido explícito por conteúdo proibido, como discurso de ódio, instruções para autoagressão ou suicídio, material sexual e orientações para fabricar itens perigosos, como armas ou explosivos.

Os versos foram submetidos a 25 dos principais modelos de IA disponíveis hoje, de nove empresas distintas — entre elas OpenAI, Google, Anthropic, Mistral AI, Meta, DeepSeek, xAI, Moonshot AI e Qwen.

Por conta da possibilidade de replicação desses poemas para fins maliciosos, os pesquisadores não os divulgaram. 

chatbots
Apesar de serem desenvolvidas com recursos de segurança para não gerar conteúdos impróprios, algumas IAs apresentaram falhas (Imagem: Owlie Productions/Shutterstock)

Leia mais:

Resultados

  • Dos testes, cerca de 62% dos poemas resultaram em respostas inseguras — ou seja, os chatbots forneceram o conteúdo proibido solicitado.
  • A eficácia da utilização de poemas para burlar os sistemas de segurança variou entre os modelos: por exemplo, o modelo GPT-5 nano, da OpenAI, não cedeu a nenhum dos poemas — recusou os pedidos indevidos. Já o Gemini 2.5 Pro, da Google, respondeu a todos os 20. Dois modelos da Meta aceitaram 70% dos prompts.
IA música
Foi notado que uma linguagem poética confunde diversas ferramentas de IA
(Imagem: Something Special/ Shuttestock)

Por que a poesia confunde os filtros de segurança

Segundo os autores do estudo, a falha se deve à forma como modelos de linguagem geram texto: normalmente, eles preveem a próxima palavra com base nas anteriores, e usam filtros para barrar conteúdo perigoso.

Entretanto, a estrutura não convencional da poesia — com ritmo, métrica, metáforas e construções menos diretas — dificulta essa previsão e causa falhas na detecção de intenções nocivas. Em outras palavras: a linguagem poética desfaz os padrões esperados pelos filtros, tornando-os ineficazes.

Diferente dos recursos usados por hackers ou especialistas em segurança, com prompts complexos e em várias etapas para manipular o modelo de linguagem, os poemas oferecidos pelo Icaro Lab foram enviados de uma vez só, sem diálogos prévios ou contexto adicional. Isso torna o método mais acessível e potencialmente perigoso para qualquer pessoa que desejar explorar a falha.

Inteligência artificial
Pelo que o estudo indica, as empresas nas quais seus chatbots apresentaram fragilidade, precisam realizar ajustes nas ferramentas (Imagem: Summit Art Creations/Shutterstock)

Alerta às empresas de IA

Antes da publicação do estudo, os pesquisadores fizeram questão de contatar cada uma das companhias de IA envolvidas nos testes e realizar um alerta em relação à vulnerabilidade do sistema. 

Conforme informações do portal Euronews, apenas a Anthropic respondeu afirmando que a empresa está analisando o estudo.

Matheus Chaves
Colaboração para o Olhar Digital

Matheus Chaves é colaboração para o olhar digital no Olhar Digital

Layse Ventura
Editor(a) SEO

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.