Como poemas conseguem contornar sistemas de segurança em IA

Pesquisadores mostram que poemas podem enganar chatbots, como ChatGPT, burlando filtros e gerando respostas sobre temas sensíveis
Por Valdir Antonelli, editado por Rodrigo Mozelli 29/11/2025 00h30
Pessoa com um tablet na mão, cuja tela está projetando, no ar, um cérebro, que possui um chip com os dizeres
Novo LLM da OpenAI busca explicar como modelos de IA funcionam por dentro (Imagem: Summit Art Creations/Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Gosta de poesias? Então saiba que, segundo pesquisadores, elas podem enganar chatbots, como o ChatGPT.

De acordo com a WIRED, metáforas, rimas e versos bem construídos contornam filtros de segurança, fazendo com que os modelos respondam mesmo a temas sensíveis, como armas nucleares.

Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam.
Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam (Imagem: SuPatMaN/Shutterstock)

Por que poemas enganam a IA

Um estudo do Icaro Lab, formado por pesquisadores da Universidade Sapienza de Roma (Itália) e do think tank DexAI, revelou algo preocupante: frases em forma de poema conseguem burlar filtros de grandes modelos de linguagem. A abordagem de poesia adversária alcançou taxas de sucesso de até 62% para versos escritos à mão e aproximadamente 43% para versões automatizadas.

Leia mais:

Eles testaram a técnica em 25 chatbots, incluindo IAs de empresas, como OpenAI, Meta e Anthropic, e a maioria cedeu ao “disfarce poético”. A equipe ressalta que, ao usar metáforas, estruturas fragmentadas e versos indiretos, conseguiu fazer com que os alarmes internos das IAs não disparassem da mesma forma que com perguntas diretas.

Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas.
Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas (Imagem: Bordovski Yauheni/Shutterstock)

Como a poesia desbloqueia o perigo

A estratégia funciona porque explora o que os técnicos chamam de “temperatura alta”, apostando em palavras inesperadas e estruturas incomuns. “Na poesia, vemos a linguagem em alta temperatura, onde as palavras se sucedem em sequências imprevisíveis e de baixa probabilidade”, comentam os pesquisadores.

Eles explicam que esse estilo confunde os classificadores — sistemas que filtram pedidos perigosos. Com a abordagem poética, muitos desses filtros não acompanham o raciocínio do modelo, permitindo que solicitações potencialmente prejudiciais sejam atendidas.

Sequências imprevisíveis e de baixa probabilidade em versos dificultam a detecção por filtros de segurança de IAs.
Sequências imprevisíveis e de baixa probabilidade em versos dificultam a detecção por filtros de segurança de IAs (Imagem: TippaPatt/Shutterstock)

Como evitar esse problema?

  • Redobre a cautela ao usar IAs para fins profissionais ou sensíveis.
  • Prefira chatbots com múltiplos mecanismos de segurança — não apenas filtros básicos.
  • Avalie e monitore o código-fonte ou as políticas de segurança ao usar IAs desenvolvidas por terceiros.

Segundo o estudo, “há um desalinhamento entre a capacidade interpretativa do modelo… e a robustez de suas salvaguardas” — e isso pode ter consequências muito reais.

Valdir Antonelli
Colaboração para o Olhar Digital

Valdir Antonelli é jornalista com especialização em marketing digital e consumo.

Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.