Algoritmo de detecção de discurso de ódio do Google tem viés racista

Tudo sobre Google

Tudo sobre Inteligência Artificial

Os comentários ofensivos se direcionam a pessoas específicas ou minorias sociais, por isso, aqueles fora da mira da agressão verbal podem não a considerar um insulto. A verificação se complica quando feita por algoritmos de inteligência artificial (IA). Esses sistemas são construídos em cima de inúmeros dados que os “ensinam” a reconhecer informações e seus efeitos na sociedade.

O problema é que os dados são escolhidos por pessoas que podem selecioná-los com base em sua visão de mundo, deixando de fora peças importantes para o software oferecer uma análise neutra, livre de preconceitos. Por conta dessa intervenção humana, sabe-se que há algoritmos com vieses racistas e sexistas, por exemplo. Dessa vez, pesquisadores observaram o primeiro caso no algoritmo de detecção de discurso de ódio e extremismo online da Jigsaw, incubadora de tecnologias contra o assédio virtual do Google. Buscando por expressões ofensivas, o sistema sinaliza gírias da comunidade negra norte-americana como tóxicas.

O estudo, desenvolvido por pesquisadores da Universidade de Washington (EUA), não estava investigando especificamente o algoritmo da empresa. Os autores queriam descobrir se bancos de dados de discurso de ódio atuais poderiam ter preconceitos raciais.

Para encontrar respostas, eles analisaram uma série de bancos de dados com informações desse tipo, principalmente tuítes que pessoas consideram como “odiosos”, “ofensivos”, “abusivos”, entre outras definições. Com essa base, também buscaram encontrar que linguagem é fortemente associada ao inglês afro-americano e qual é definida como inglês de norte-americanos brancos.

Reprodução

Combinando esses dois conjuntos, eles puderam ver se o vocabulário de pessoas brancas e de pessoas negras tem uma chance maior ou menor de ser considerado ofensivo. Foi assim que descobriram que havia preconceito racial no algoritmo da Jigsaw: o inglês alinhado aos negros era muito mais provável de ser classificado como agressivo.

A empresa do Google tem uma API chamada Perspective na qual é possível incluir um trecho de texto e receber seu “grau de toxicidade” gerado pelo algoritmo da plataforma. Como parte do experimento, os pesquisadores alimentaram a Perspective com vários tuítes com discursos de ódio ou comentários ofensivos. Como resultado, eles encontraram “correlações entre dialetos e grupos em nossos conjuntos de dados e a pontuação de toxicidade da Perspective”. Os autores acrescentam que “todas as correlações são significativas, o que indica um potencial viés racial para todos os conjuntos de dados”. Resumindo: eles descobriram que era muito mais provável a API rotular o dialeto da comunidade negra dos EUA como tóxica e a fala considerada de brancos de outra forma.

Por outro lado, o estudo mostrou que ao “preparar” o algoritmo com o conhecimento de que a pessoa tuitando provavelmente é negra ou escreve com o inglês afro-americano, a probabilidade de o sistema verificar o tuíte como uma ofensa cai consideravelmente.

Via: Tech Crunch