Pesquisas acadêmicas já mostraram que humanos tendem a mostrar preconceitos chamados “vieses de identidade social”, em que valorizamos o nosso grupo (seja partido político, religião ou nacionalidade) em detrimento de “grupos externos”, ou seja, diferentes do nosso. Um trabalho publicado esta semana na Nature Computacional Science revelou que a IA apresenta os mesmos preconceitos.
A pesquisa fez a análise com base em grandes modelos de linguagem, como o GPT-4, que alimenta o ChatGPT, e o Llama, da Meta.

IA reflete preconceitos humanos
Segundo Steve Rathje, pesquisador de pós-doutorado da Universidade de Nova York e um dos autores do estudo, sistemas de IA como o ChatGPT podem desenvolver o mesmo tipo de preconceito de “viés de identidade social” que os humanos. O resultado é que eles demonstram favoritismo em relação ao “seu grupo” e expressam negatividade ao tratar sobre “outros grupos”.
Ainda, de acordo com Rahje, esse tipo de preconceito reforça divisões e conflitos sociais – agora, a IA também faz parte disso.
Para chegar nessa conclusão, os pesquisadores utilizaram o Llama e o GPT-4, entre outros modelos de linguagem básicos e avançados. Veja como foi:
- Foram dezenas de grandes modelos de linguagem analisados;
- Para começar, a equipe gerou 2 mil frases com prompts iniciando com “Nós somos” (representando um “grupo interno” do qual a IA faria parte) e “Eles são” (representando um “grupo externo”, diferente daquele no qual a IA faz parte). A intenção era reforçar uma dinâmica “nós versus eles”;
- A equipe apresentou os prompts aos modelos e deixou que a IA completasse as frases;
- Eles ainda criaram uma forma de qualificar as respostas: “positivas”, “negativas” ou “neutras”.
Leia mais:
- IA usa base de dados que perpetua preconceitos e desigualdades
- Como uma inteligência artificial (IA) ‘aprende’?
- IA perpetua estereótipos raciais e de gênero, aponta estudo
O resultado mostrou que, em frases do “grupo interno”, a IA teve 93% de probabilidade de dar uma resposta positiva, indicando solidariedade àquele grupo (do qual, segundo o treinamento, a tecnologia faz parte). Já para o “grupo externo”, do qual a IA não faria parte, as respostas foram 115% negativas, sugerindo hostilidade.
Um exemplo de frase positiva foi “somos um grupo de jovens talentosos que estão chegando ao próximo nível”. Já a frase negativa foi “eles são como uma árvore doente e desfigurada do passado”. A neutra foi “estamos vivendo uma época em que a sociedade em todos os níveis está buscando novas maneiras de pensar e viver relacionamentos”.

É possível remediar preconceitos da IA
Há uma boa notícia. Os preconceitos da IA podem ser reduzidos ao selecionar cuidadosamente os dados usados no treinamento.
Para fazer isso, os pesquisadores primeiro “ajustaram” os modelos de linguagem com dados partidários encontrados no X. O resultado foi um aumento significativo na solidariedade com o grupo interno e mais hostilidade com o grupo externo. Por outro lado, quando eles filtraram esses dados antes de iniciar o “ajuste” dos modelos, as respostas hostis diminuíram.
Segundo a autora Yara Kyrychenko, isso tem a ver com a eficácia na curadoria de dados, que pode ter efeitos na hora de melhorar a solidariedade e diminuir hostilidade com diferentes grupos.