Siga o Olhar Digital no Google Discover
Com o aumento do discurso de ódio online – que pode intensificar a polarização política e afetar a saúde mental –, empresas de inteligência artificial lançaram grandes modelos de linguagem para filtrar automaticamente conteúdo prejudicial.
Ofertas
Por: R$ 37,92
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
Uma nova análise, publicada no ACL Antology, revela que esses sistemas são altamente inconsistentes.

Testes usaram as principais IAs do mercado
Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados para moderação de conteúdo, incluindo sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.
Eles testaram 1,3 milhão de frases sintéticas abordando 125 grupos sociais, variando entre termos neutros, positivos e insultos.
Leia mais
- IA transforma fotos de crianças em risco: entenda o perigo oculto
- Gemini é classificado como “alto risco” para jovens, aponta ONG
- Vídeos de IA de abuso sexual infantil estão ficando mais realistas

Principais achados
- Decisões divergentes sobre o mesmo conteúdo: sistemas diferentes classificaram conteúdos idênticos de maneiras opostas – alguns os sinalizando como prejudiciais e outros como aceitáveis –, o que pode gerar percepção de viés e minar a confiança do público.
- Variação interna e sensibilidade a grupos específicos: alguns modelos são mais previsíveis, enquanto outros produzem resultados inconsistentes. As diferenças foram mais acentuadas para grupos baseados em escolaridade, interesses pessoais e classe econômica, indicando que certas comunidades podem ficar mais vulneráveis online.
- Tratamento desigual de frases neutras e positivas: modelos especializados, como Claude 3.5 Sonnet e Mistral, consideram insultos prejudiciais independentemente do contexto, enquanto outros avaliam a intenção, demonstrando falta de meio-termo na classificação.
Os pesquisadores alertam que essas inconsistências destacam os desafios de equilibrar precisão e moderação excessiva, mostrando que os sistemas de IA ainda têm limitações significativas na regulação do discurso de ódio.
