Xenoglossofobia? ChatGPT "exclui" idiomas

Tudo sobre ChatGPT

A cientista da computação Pascale Fung pode imaginar futuro promissor no qual ajudantes poliglotas de IA, como o ChatGPT, superam as barreiras do idioma. Nesse mundo, os donos de lojas indonésios fluentes apenas nos dialetos locais podem alcançar novos compradores listando seus produtos online em inglês.

“Isso pode abrir oportunidades”, diz Fung – depois, faz uma pausa. Ela identificou o viés em sua visão de futuro mais interconectado: as compras auxiliadas por IA seriam unilaterais, porque poucos estadunidenses se dariam ao trabalho de usar a tradução de IA para ajudar na pesquisa de produtos anunciados em indonésio. “Os estadunidenses não são incentivados a aprender outro idioma”, diz ela.

Leia mais:

Nem todo estadunidense se encaixa nessa descrição – cerca de um em cada cinco fala outro idioma em casa –, mas o domínio do inglês no comércio global é real.

Fung, diretora do Centro de Pesquisa em IA da Universidade de Ciência e Tecnologia de Hong Kong, que fala sete idiomas, vê esse viés em seu próprio campo. “Se você não publica artigos em inglês, não é relevante”, afirma ela. “Não falantes de inglês tendem a ser punidos profissionalmente.”

Fung gostaria de ver a IA mudar isso, e não reforçar ainda mais a primazia do inglês. Ela faz parte de uma comunidade global de pesquisadores de IA que testam as habilidades linguísticas do ChatGPT e de seus chatbots rivais e soam o alarme sobre evidências de que eles são significativamente menos capazes em outros idiomas além do inglês.

Embora os pesquisadores tenham identificado algumas correções em potencial, os chatbots que falam inglês se espalharam. “Uma das minhas maiores preocupações é que vamos exacerbar o viés para os falantes de inglês”, diz Thien Huu Nguyen, cientista da computação da Universidade de Oregon que também está no caso contra chatbots distorcidos.

“As pessoas vão seguir a norma e não pensar em suas próprias identidades ou cultura. Isso mata a diversidade. Isso mata a inovação.”

Pelo menos 15 trabalhos de pesquisa publicados este ano no servidor de pré-impressão arXiv.org, incluindo estudos de coautoria de Nguyen e Fung, investigaram o multilinguismo de grandes modelos de linguagem, a geração de experiências de software de IA como o ChatGPT;
As metodologias variam, mas suas descobertas estão alinhadas: os sistemas de IA são bons em traduzir outros idiomas para o inglês, mas têm dificuldade em reescrever o inglês para outros idiomas – especialmente aqueles, como o coreano, com comandos não latinos.

Apesar de muita conversa recente sobre a IA se tornar sobre-humana, os sistemas do tipo ChatGPT também lutam para
misture idiomas fluentemente na mesma expressão – po exemplo, inglês e tâmil – como bilhões de pessoas no mundo fazem casualmente todos os dias.

O estudo de Nguyen relata que os testes no ChatGPT em março mostraram que ele teve desempenho substancialmente pior ao responder perguntas factuais ou ao resumir textos complexos em idiomas diferentes do inglês e era mais propenso a fabricar informações. “Esta é uma frase em inglês, então não há como traduzi-la para o vietnamita”, o bot respondeu incorretamente a uma consulta.

Apesar das limitações da tecnologia, trabalhadores de todo o mundo estão recorrendo aos chatbots para elaborar ideias de negócios, redigir e-mails corporativos e aperfeiçoar códigos de software.

Se as ferramentas continuarem a funcionar melhor em inglês, elas podem aumentar a pressão para aprender o idioma sobre as pessoas que esperam ganhar lugar na economia global. Isso poderia promover espiral de imposição e influência do inglês, que começou séculos atrás com o Império Britânico.

chatgpt openai — Imagem: Markus Mainka/Shutterstock

Lacuna de idioma

Não são apenas os estudiosos da IA que estão preocupados. Em uma audiência no Congresso dos EUA no mês passado, o senador Alex Padilla, da Califórnia, perguntou a Sam Altman, CEO da OpenAI, criadora do ChatGPT, o que sua empresa está fazendo para fechar a lacuna de idioma.

Cerca de 44% dos californianos falam idioma diferente do inglês. Altman disse que espera fazer parceria com governos e outras organizações para adquirir conjuntos de dados que reforcem as habilidades linguísticas do ChatGPT e ampliem seus benefícios para “o maior grupo possível”.

Padilla, que também fala espanhol, é cético sobre os sistemas que fornecem resultados linguísticos equitativos sem grandes mudanças nas estratégias de seus desenvolvedores. “Essas novas tecnologias são grandes promessas de acesso à informação, educação e comunicação aprimorada, e devemos garantir que o idioma não se torne uma barreira para esses benefícios”, comenta.

A OpenAI não escondeu que seus sistemas são tendenciosos. O relatório da empresa sobre o GPT-4, seu modelo de idioma mais avançado, disponível para usuários pagantes do ChatGPT, afirma que a maioria dos dados subjacentes veio do inglês, e que os esforços da empresa para ajustar e estudar o desempenho do modelo focado no inglês está “com ponto de vista centrado nos EUA”.

Ou, como um membro da equipe escreveu em dezembro passado no fórum de suporte da empresa, depois que um usuário perguntou se a OpenAI adicionaria suporte em espanhol ao ChatGPT: “Qualquer bom resultado em espanhol é um bônus”. A OpenAI se recusou a comentar esta história.

Jessica Forde, estudante de doutorado em ciência da computação na Brown University, criticou a OpenAI por não avaliar completamente os recursos do GPT-4 em outros idiomas antes de lançá-lo.

Ela está entre os pesquisadores que gostariam que as empresas explicassem publicamente seus dados de treinamento e acompanhassem seu progresso no suporte multilíngue.

“O inglês tem sido tão consolidado porque as pessoas têm dito (e estudado), isso pode funcionar como um advogado em inglês ou um médico em inglês? Isso pode produzir uma comédia em inglês? Mas eles não estão perguntando o mesmo sobre outros idiomas”, alega.

Com informações de WIRED

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Xenoglossofobia? ChatGPT “exclui” idiomas da revolução da IA generativa

Lacuna de idioma