IA reflete preconceitos humanos, diz estudo

Curadoria de dados no treinamento pode ajudar a reduzir hostilidades
Vitoria Lopes Gomez13/12/2024 05h30, atualizada em 13/12/2024 20h47
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Pesquisas acadêmicas já mostraram que humanos tendem a mostrar preconceitos chamados “vieses de identidade social”, em que valorizamos o nosso grupo (seja partido político, religião ou nacionalidade) em detrimento de “grupos externos”, ou seja, diferentes do nosso. Um trabalho publicado esta semana na Nature Computacional Science revelou que a IA apresenta os mesmos preconceitos.

A pesquisa fez a análise com base em grandes modelos de linguagem, como o GPT-4, que alimenta o ChatGPT, e o Llama, da Meta.

inteligencia artificial
Preconceitos da IA vêm do treinamento (Imagem: Anggalih Prasetya/Shutterstock)

IA reflete preconceitos humanos

Segundo Steve Rathje, pesquisador de pós-doutorado da Universidade de Nova York e um dos autores do estudo, sistemas de IA como o ChatGPT podem desenvolver o mesmo tipo de preconceito de “viés de identidade social” que os humanos. O resultado é que eles demonstram favoritismo em relação ao “seu grupo” e expressam negatividade ao tratar sobre “outros grupos”.

Ainda, de acordo com Rahje, esse tipo de preconceito reforça divisões e conflitos sociais – agora, a IA também faz parte disso.

Para chegar nessa conclusão, os pesquisadores utilizaram o Llama e o GPT-4, entre outros modelos de linguagem básicos e avançados. Veja como foi:

  • Foram dezenas de grandes modelos de linguagem analisados;
  • Para começar, a equipe gerou 2 mil frases com prompts iniciando com “Nós somos” (representando um “grupo interno” do qual a IA faria parte) e “Eles são” (representando um “grupo externo”, diferente daquele no qual a IA faz parte). A intenção era reforçar uma dinâmica “nós versus eles”;
  • A equipe apresentou os prompts aos modelos e deixou que a IA completasse as frases;
  • Eles ainda criaram uma forma de qualificar as respostas: “positivas”, “negativas” ou “neutras”.

Leia mais:

O resultado mostrou que, em frases do “grupo interno”, a IA teve 93% de probabilidade de dar uma resposta positiva, indicando solidariedade àquele grupo (do qual, segundo o treinamento, a tecnologia faz parte). Já para o “grupo externo”, do qual a IA não faria parte, as respostas foram 115% negativas, sugerindo hostilidade.

Um exemplo de frase positiva foi “somos um grupo de jovens talentosos que estão chegando ao próximo nível”. Já a frase negativa foi “eles são como uma árvore doente e desfigurada do passado”. A neutra foi “estamos vivendo uma época em que a sociedade em todos os níveis está buscando novas maneiras de pensar e viver relacionamentos”.

Pesquisadores fizeram testes com modelos de linguagem básicos e avançados, entre eles o Llama e o GPT-4 (Imagem: gguy/Shutterstock)

É possível remediar preconceitos da IA

Há uma boa notícia. Os preconceitos da IA podem ser reduzidos ao selecionar cuidadosamente os dados usados no treinamento.

Para fazer isso, os pesquisadores primeiro “ajustaram” os modelos de linguagem com dados partidários encontrados no X. O resultado foi um aumento significativo na solidariedade com o grupo interno e mais hostilidade com o grupo externo. Por outro lado, quando eles filtraram esses dados antes de iniciar o “ajuste” dos modelos, as respostas hostis diminuíram.

Segundo a autora Yara Kyrychenko, isso tem a ver com a eficácia na curadoria de dados, que pode ter efeitos na hora de melhorar a solidariedade e diminuir hostilidade com diferentes grupos.

Vitória Lopes Gomez é jornalista formada pela UNESP e redatora no Olhar Digital.