Siga o Olhar Digital no Google Discover
Pesquisadores do Icaro Lab, laboratório ligado à empresa de IA ética DexAI, identificaram uma vulnerabilidade preocupante em modelos de linguagem: poemas podem driblar os mecanismos de segurança de muitos chatbots avançados.
Como foi realizados o teste
Para testar isso, a equipe elaborou 20 poemas em inglês e italiano. Apesar da forma aparentemente inofensiva, cada um deles encerrava com um pedido explícito por conteúdo proibido, como discurso de ódio, instruções para autoagressão ou suicídio, material sexual e orientações para fabricar itens perigosos, como armas ou explosivos.
Os versos foram submetidos a 25 dos principais modelos de IA disponíveis hoje, de nove empresas distintas — entre elas OpenAI, Google, Anthropic, Mistral AI, Meta, DeepSeek, xAI, Moonshot AI e Qwen.
Por conta da possibilidade de replicação desses poemas para fins maliciosos, os pesquisadores não os divulgaram.

Leia mais:
- OpenAI entra em “alerta máximo” para melhorar o ChatGPT
- 5 prompts do ChatGPT para te ajudar a organizar os seus gastos financeiros
- DeepSeek avança e desafia o GPT-5 com novos modelos de IA
Resultados
- Dos testes, cerca de 62% dos poemas resultaram em respostas inseguras — ou seja, os chatbots forneceram o conteúdo proibido solicitado.
- A eficácia da utilização de poemas para burlar os sistemas de segurança variou entre os modelos: por exemplo, o modelo GPT-5 nano, da OpenAI, não cedeu a nenhum dos poemas — recusou os pedidos indevidos. Já o Gemini 2.5 Pro, da Google, respondeu a todos os 20. Dois modelos da Meta aceitaram 70% dos prompts.

(Imagem: Something Special/ Shuttestock)
Por que a poesia confunde os filtros de segurança
Segundo os autores do estudo, a falha se deve à forma como modelos de linguagem geram texto: normalmente, eles preveem a próxima palavra com base nas anteriores, e usam filtros para barrar conteúdo perigoso.
Entretanto, a estrutura não convencional da poesia — com ritmo, métrica, metáforas e construções menos diretas — dificulta essa previsão e causa falhas na detecção de intenções nocivas. Em outras palavras: a linguagem poética desfaz os padrões esperados pelos filtros, tornando-os ineficazes.
Diferente dos recursos usados por hackers ou especialistas em segurança, com prompts complexos e em várias etapas para manipular o modelo de linguagem, os poemas oferecidos pelo Icaro Lab foram enviados de uma vez só, sem diálogos prévios ou contexto adicional. Isso torna o método mais acessível e potencialmente perigoso para qualquer pessoa que desejar explorar a falha.

Alerta às empresas de IA
Antes da publicação do estudo, os pesquisadores fizeram questão de contatar cada uma das companhias de IA envolvidas nos testes e realizar um alerta em relação à vulnerabilidade do sistema.
Conforme informações do portal Euronews, apenas a Anthropic respondeu afirmando que a empresa está analisando o estudo.