Siga o Olhar Digital no Google Discover
Com o aumento do discurso de ódio online – que pode intensificar a polarização política e afetar a saúde mental –, empresas de inteligência artificial lançaram grandes modelos de linguagem para filtrar automaticamente conteúdo prejudicial.
Ofertas
Por: R$ 50,10
Por: R$ 67,95
Por: R$ 10,90
Por: R$ 2.069,90
Por: R$ 56,60
Por: R$ 75,85
Por: R$ 334,32
Por: R$ 15.522,79
Por: R$ 49,90
Por: R$ 140,00
Por: R$ 178,49
Por: R$ 198,99
Por: R$ 3.999,00
Por: R$ 160,65
Por: R$ 187,00
Por: R$ 209,90
Por: R$ 166,19
Por: R$ 330,00
Uma nova análise, publicada no ACL Antology, revela que esses sistemas são altamente inconsistentes.

Testes usaram as principais IAs do mercado
Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados para moderação de conteúdo, incluindo sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.
Eles testaram 1,3 milhão de frases sintéticas abordando 125 grupos sociais, variando entre termos neutros, positivos e insultos.
Leia mais
- IA transforma fotos de crianças em risco: entenda o perigo oculto
- Gemini é classificado como “alto risco” para jovens, aponta ONG
- Vídeos de IA de abuso sexual infantil estão ficando mais realistas

Principais achados
- Decisões divergentes sobre o mesmo conteúdo: sistemas diferentes classificaram conteúdos idênticos de maneiras opostas – alguns os sinalizando como prejudiciais e outros como aceitáveis –, o que pode gerar percepção de viés e minar a confiança do público.
- Variação interna e sensibilidade a grupos específicos: alguns modelos são mais previsíveis, enquanto outros produzem resultados inconsistentes. As diferenças foram mais acentuadas para grupos baseados em escolaridade, interesses pessoais e classe econômica, indicando que certas comunidades podem ficar mais vulneráveis online.
- Tratamento desigual de frases neutras e positivas: modelos especializados, como Claude 3.5 Sonnet e Mistral, consideram insultos prejudiciais independentemente do contexto, enquanto outros avaliam a intenção, demonstrando falta de meio-termo na classificação.
Os pesquisadores alertam que essas inconsistências destacam os desafios de equilibrar precisão e moderação excessiva, mostrando que os sistemas de IA ainda têm limitações significativas na regulação do discurso de ódio.
