OpenAI pagou menos de US$ 2 para quenianos treinarem ChatGPT

Tudo sobre ChatGPT

Tudo sobre OpenAI

Segundo a revista TIME, em sua busca para tornar o ChatGPT menos tóxico, a OpenAI usou trabalhadores quenianos terceirizados que ganham menos de US$ 2 por hora.

O trabalho foi vital para a OpenAI. O antecessor do GPT-4, o GPT-3, já havia mostrado capacidade impressionante de encadear frases. Mas foi uma venda difícil, já que o aplicativo também costumava deixar escapar comentários violentos, sexistas e racistas.

Leia mais:

Isso ocorre porque a IA foi treinada em centenas de bilhões de palavras extraídas da Internet – vasto repositório de linguagem humana. Esse enorme conjunto de dados de treinamento foi o motivo dos impressionantes recursos linguísticos do GPT-3, mas também foi talvez sua maior maldição.

Como partes da Internet estão repletas de toxicidade e viés, não havia maneira fácil de limpar essas seções dos dados de treinamento. Mesmo uma equipe de centenas de humanos levaria décadas para vasculhar manualmente o enorme conjunto de dados.

Foi apenas construindo mecanismo de segurança adicional alimentado por IA que a OpenAI seria capaz de conter esse dano, produzindo um chatbot adequado para o uso diário.

Para construir esse sistema de segurança, a OpenAI pegou folha do manual de empresas de mídia social, como o Facebook, que já havia mostrado que era possível construir IAs que poderiam detectar linguagem tóxica como discurso de ódio para ajudar a removê-la de suas plataformas.

A premissa era simples: alimentar IA com exemplos rotulados de violência, discurso de ódio e abuso sexual, e essa ferramenta poderia aprender a detectar essas formas de toxicidade na natureza.

Esse detector seria incorporado ao ChatGPT para verificar se estava ecoando a toxicidade de seus dados de treinamento e filtrá-lo antes que chegasse ao usuário. Também poderia ajudar a eliminar textos tóxicos dos conjuntos de dados de treinamento de futuros modelos de IA.

Logomarca da OpenAI com background do ChatGPT e imagem de maços de dólares sobreposta — Imagem: Pedro Spadoni/Olhar Digital

Para obter esses rótulos, a OpenAI enviou dezenas de milhares de trechos de texto para uma empresa de terceirização no Quênia, a partir de novembro de 2021. Grande parte desse texto parecia ter sido retirado dos recessos mais sombrios da Internet. Alguns descreviam situações em detalhes gráficos, como abuso sexual infantil, bestialidade, assassinato, suicídio, tortura, automutilação e incesto.

O parceiro terceirizado da OpenAI no Quênia era a Sama, empresa com sede em San Francisco que emprega trabalhadores no Quênia, Uganda e Índia para rotular dados para clientes do Vale do Silício, como Google, Meta e Microsoft. A Sama se comercializa como uma empresa de “IA ética” e afirma ter ajudado a tirar mais de 50 mil pessoas da pobreza.

Os rotuladores de dados empregados pela Sama em nome da OpenAI recebiam salário líquido entre US$ 1,32 e US$ 2 por hora, dependendo da antiguidade e do desempenho.

A TIME revisou centenas de páginas de documentos internos da Sama e da OpenAI, incluindo contracheques de funcionários, e entrevistou quatro funcionários da Sama que trabalharam no projeto. Todos os funcionários falaram sob condição de anonimato por preocupação com seus meios de subsistência.

A história dos trabalhadores que tornaram o ChatGPT possível oferece vislumbre das condições nesta parte pouco conhecida da indústria de IA.

“Apesar do papel fundamental desempenhado por esses profissionais de enriquecimento de dados, um crescente corpo de pesquisa revela as precárias condições de trabalho que esses trabalhadores enfrentam”, diz a Partnership on AI, coalizão de organizações de IA à qual a OpenAI pertence.

“Isso pode ser o resultado de esforços para esconder a dependência da IA dessa grande força de trabalho ao comemorar os ganhos de eficiência da tecnologia. Fora da vista também está fora da mente.”

A OpenAI não divulga os nomes dos terceirizados com os quais faz parceria e não está claro se a OpenAI trabalhou com outras empresas de rotulagem de dados além da Sama neste projeto.

Em comunicado, um porta-voz da OpenAI confirmou que os funcionários da Sama no Quênia contribuíram para ferramenta que estava sendo construída para detectar conteúdo tóxico, que acabou sendo incorporada ao ChatGPT.

A declaração também indica que este trabalho contribuiu para os esforços para remover dados tóxicos dos conjuntos de dados de treinamento de ferramentas, como o ChatGPT.

“Nossa missão é garantir que a inteligência artificial geral beneficie toda a humanidade e trabalhamos duro para construir sistemas de IA seguros e úteis que limitem o viés e o conteúdo prejudicial”, disse o porta-voz.

“Classificar e filtrar [textos e imagens] nocivos é etapa necessária para minimizar a quantidade de conteúdo violento e sexual incluído nos dados de treinamento e criar ferramentas que possam detectar conteúdo nocivo.”

Mesmo com a desaceleração da economia de tecnologia, os investidores estão correndo para despejar bilhões de dólares em IA generativa, setor da indústria de tecnologia do qual a OpenAI é a líder indiscutível.

Texto, imagens, vídeo e áudio gerados por computador transformarão a maneira como inúmeras indústrias fazem negócios, acreditam os investidores mais otimistas, aumentando a eficiência em todos os lugares, desde as artes criativas até o direito e a programação de computadores.

Mas as condições de trabalho dos rotuladores de dados revelam parte mais sombria desse quadro: que, apesar de todo o seu encanto, a IA geralmente depende do trabalho humano oculto no Sul Global, que muitas vezes pode ser prejudicial e explorador. Esses trabalhadores invisíveis permanecem à margem, mesmo que seu trabalho contribua para indústrias bilionárias.

Um trabalhador da Sama encarregado de ler e rotular o texto do OpenAI disse à TIME que teve visões recorrentes depois de ler descrição gráfica de homem fazendo sexo com um cachorro na presença de uma criança. “Isso foi uma tortura”, disse ele.

“Você vai ler série de declarações como essa durante toda a semana. Quando chega a sexta-feira, você fica perturbado por pensar naquela imagem.” A natureza traumática do trabalho acabou levando a Sama a cancelar todo o trabalho para a OpenAI em fevereiro de 2022, oito meses antes do planejado.

Contratos da Sama

Documentos analisados pela TIME mostram que a OpenAI assinou três contratos no valor total de cerca de US$ 200 mil com a Sama, no final de 2021, para rotular descrições textuais de abuso sexual, discurso de ódio e violência.

Cerca de três dezenas de trabalhadores foram divididos em três equipes, uma com foco em cada assunto. Três funcionários disseram à TIME que deveriam ler e rotular entre 150 e 250 passagens de texto por turno de nove horas.

Esses trechos podem variar de cerca de 100 palavras a bem mais de mil. Todos os quatro funcionários entrevistados pela TIME descreveram como ficaram mentalmente marcados pelo trabalho.

Embora tivessem o direito de participar de sessões com conselheiros de “bem-estar”, todos os quatro disseram que essas sessões eram inúteis e raras devido às altas demandas para serem mais produtivos no trabalho.

Dois disseram que só tiveram a opção de participar de sessões em grupo, e um disse que seus pedidos para ver os conselheiros individualmente foram repetidamente negados pela administração da Sama.

Em nota, um porta-voz da Sama disse ser “incorreto” que os funcionários só tivessem acesso a sessões em grupo. Os trabalhadores tinham direito a sessões individuais e em grupo com “terapeutas de saúde mental profissionalmente treinados e licenciados”, disse o porta-voz. Esses terapeutas estavam acessíveis a qualquer momento, acrescentou.

Os contratos estabeleciam que a OpenAI pagaria taxa horária de US$ 12,50 à Sama pelo trabalho, que era entre seis e nove vezes o valor que os funcionários da Sama no projeto estavam levando para casa por hora.

Os agentes, os rotuladores de dados mais juniores que compunham a maioria das três equipes, recebiam salário básico de 21 mil xelins quenianos (US$ 170) por mês, de acordo com três funcionários da empresa.

Eles também recebiam bônus mensais no valor de cerca de US$ 70 devido à natureza explícita de seu trabalho e receberiam comissão por atender aos principais indicadores de desempenho, como precisão e velocidade.

Um agente que trabalha em turnos de nove horas pode esperar levar para casa um total de pelo menos US$ 1,32 por hora após impostos, podendo chegar a US$ 1,44 por hora se exceder todas as suas metas.

Analistas de qualidade – rotuladoras mais experientes cujo trabalho era verificar o trabalho dos agentes – podiam levar para casa até US$ 2 por hora se atingissem todas as suas metas.

Não existe um salário mínimo universal no Quênia, mas na época em que esses trabalhadores estavam empregados, o salário mínimo para uma recepcionista em Nairóbi era de US$ 1,52 por hora.

Em comunicado, um porta-voz da Sama disse que os trabalhadores foram solicitados a rotular 70 passagens de texto por turno de nove horas, não até 250, e que os trabalhadores poderiam ganhar entre US$ 1,46 e US$ 3,74 por hora após impostos.

O porta-voz se recusou a dizer quais cargos renderiam salários no topo dessa faixa. “A taxa de US$ 12,50 para o projeto cobre todos os custos, como despesas de infraestrutura, salário e benefícios para os associados e seus analistas de garantia de qualidade totalmente dedicados e líderes de equipe”, acrescentou.

Um porta-voz da OpenAI disse em comunicado que a empresa não estabeleceu nenhuma meta de produtividade e que a Sama era responsável por gerenciar o pagamento e as provisões de saúde mental para os funcionários.

Levamos muito a sério a saúde mental de nossos funcionários e de nossos contratados. Nosso entendimento anterior era que [na Sama] programas de bem-estar e aconselhamento 1:1 eram oferecidos, os trabalhadores podiam desistir de qualquer trabalho sem penalização, a exposição a conteúdo explícito teria um limite e as informações confidenciais seriam tratadas por trabalhadores especificamente treinados para fazer isso.
Porta-voz da Sama

No trabalho diário de rotulagem de dados no Quênia, às vezes apareciam casos extremos que mostravam a dificuldade de ensinar uma máquina a entender nuances.

Um dia, no início de março do ano passado, um funcionário da Sama estava no trabalho lendo uma história explícita sobre o companheiro de Batman, Robin, sendo estuprado no covil de um vilão.

(Uma busca online pelo texto revela que ele se originou de um site erótico online, onde é acompanhado por imagens sexuais explícitas) O início da história deixa claro que o sexo não é consensual.

Mais tarde, porém, após descrição graficamente detalhada da penetração, Robin começa a retribuir. O funcionário da Sama encarregado de rotular o texto pareceu confuso com o consentimento ambíguo de Robin e pediu aos pesquisadores da OpenAI esclarecimentos sobre como rotular o texto, de acordo com documentos vistos pela TIME.

A passagem deveria ser rotulada como violência sexual, ela perguntou, ou não? A resposta da OpenAI, se alguma vez veio, não está registrada no documento; a empresa se recusou a comentar. O funcionário da Sama não respondeu ao pedido de entrevista.

CEO da OpenAI e criador do ChatGPT, Sam Altman, durante palestra — CEO e criador da OpenAI, Sam Altman (Imagem: Lucy Nicholson/Reuters)

Como o relacionamento da OpenAI com a Sama entrou em colapso

Em fevereiro de 2022, o relacionamento de Sama e OpenAI se aprofundou brevemente, apenas para acabar. Naquele mês, a Sama iniciou o trabalho piloto de um projeto separado para a OpenAI: coletar imagens sexuais e violentas – algumas delas ilegais sob a lei dos EUA – para entregar à OpenAI.

O trabalho de rotular imagens parece não estar relacionado ao ChatGPT. Em comunicado, um porta-voz da OpenAI não especificou o propósito das imagens que a empresa buscou da Sama, mas disse que rotular imagens prejudiciais era “passo necessário” para tornar suas ferramentas de IA mais seguras.

Em fevereiro, de acordo com documento de cobrança analisado pela TIME, a Sama entregou à OpenAI lote de amostra de 1,4 mil imagens. Algumas dessas imagens foram categorizadas como “C4” – rótulo interno da OpenAI que denota abuso sexual infantil – de acordo com o documento.

Também foram incluídas no lote imagens “C3” (incluindo bestialidade, estupro e escravidão sexual) e imagens “V3” retratando detalhes gráficos de morte, violência ou lesões físicas graves, de acordo com o documento de cobrança. A OpenAI pagou a Sama um total de US$ 787,50 pela coleta das imagens, mostra o documento.

Em semanas, a Sama cancelou todo o seu trabalho para a OpenAI – oito meses antes do acordado nos contratos. A empresa de terceirização disse, em comunicado, que seu acordo para coletar imagens para a OpenAI não incluía nenhuma referência a conteúdo ilegal, e foi somente após o início do trabalho que a OpenAI enviou “instruções adicionais” referindo-se a “algumas categorias ilegais”.

A equipe da África Oriental levantou preocupações para nossos executivos imediatamente. A Sama encerrou imediatamente o piloto de classificação de imagens e avisou que cancelaríamos todos os [projetos] restantes com a OpenAI. As pessoas que trabalham com o cliente não examinaram a solicitação pelos canais apropriados. Após revisão da situação, os indivíduos foram demitidos e novas políticas de verificação de vendas e proteções foram implementadas.
Porta-voz da Sama

Em comunicado, a OpenAI confirmou que recebeu 1,4 mil imagens da Sama que “incluem, mas não se limitam a imagens C4, C3, C2, V3, V2 e V1”. Em declaração de acompanhamento, a empresa disse: “Contratamos a Sama como parte de nosso trabalho contínuo para criar sistemas de IA mais seguros e evitar resultados prejudiciais. Nunca pretendemos que nenhum conteúdo da categoria C4 fosse coletado. Este conteúdo não é necessário como entrada para nossos filtros de pré-treinamento e instruímos nossos funcionários a evitá-lo ativamente. Assim que a Sama nos informou haver tentado coletar conteúdo nesta categoria, esclarecemos que houve falha de comunicação e que não queríamos aquele conteúdo. E, após perceber que houve falha de comunicação, não abrimos ou visualizamos o conteúdo em questão – portanto, não podemos confirmar se continha imagens na categoria C4.”

A decisão da Sama de encerrar seu trabalho com a OpenAI significou que os funcionários da empresa não precisavam mais lidar com textos e imagens perturbadores, mas também teve grande impacto em seus meios de subsistência. Trabalhadores da Sama contam que, no final de fevereiro de 2022, foram chamados para reunião com integrantes da equipe de Recursos Humanos da empresa, onde foram informados da novidade.

“Fomos informados de que eles [Sama] não queriam expor seus funcionários a esse conteúdo [perigoso] novamente”, disse funcionário da Sama nos projetos de rotulagem de texto. “Respondemos que, para nós, era uma forma de sustentar nossas famílias.”

A maioria das cerca de três dúzias de trabalhadores foi movida para outros fluxos de trabalho com salários mais baixos sem o bônus de conteúdo explícito de US$ 70 por mês; outros perderam seus empregos. A Sama entregou seu último lote de dados rotulados à OpenAI em março, oito meses antes do término do contrato.

Como os contratos foram cancelados antecipadamente, tanto a OpenAI quanto a Sama disseram que os US$ 200 mil que haviam acordado anteriormente não foram pagos integralmente. A OpenAI disse que os contratos valiam “cerca de US$ 150 mil ao longo da parceria”.

Funcionários da Sama dizem que receberam mais um motivo para o cancelamento dos contratos por parte de seus gestores. O contrato similar que a Sama detinha com o Facebook para moderar seus conteúdos, de forma similar aos do ChatGPT (o Olhar Digital fez reportagem sobre o assunto; leia aqui).

Quatro funcionários da Sama disseram que foram informados de que a investigação levou à decisão da empresa de encerrar seu trabalho para a OpenAI (o Facebook diz que exige que seus parceiros de terceirização “forneçam salários, benefícios e suporte líderes do setor”).

As comunicações internas após a publicação da história no Facebook, analisadas pela TIME, mostram os executivos da Sama em San Francisco lutando para lidar com as consequências de relações-públicas, inclusive obrigando uma empresa, uma subsidiária da Lufthansa, que queria evidências de seu relacionamento comercial com a Sama eliminadas do site da empresa de terceirização.

Em comunicado à revista, a Lufthansa confirmou que isso ocorreu e acrescentou que sua subsidiária zeroG posteriormente encerrou seus negócios com a Sama. Em 17 de fevereiro, três dias após a publicação da TIME, a CEO da Sama, Wendy Gonzalez, enviou mensagem a um grupo de executivos seniores via Slack: “Vamos encerrar o trabalho da OpenAI.”

Em 10 de janeiro deste ano, a Sama deu um passo adiante, anunciando o cancelamento do restante de seus trabalhos com conteúdo sensível. A empresa disse que não renovaria seu contrato de moderação de conteúdo de US$ 3,9 milhões com o Facebook, resultando na perda de cerca de 200 empregos em Nairóbi, Quênia.

“Após inúmeras discussões com nossa equipe global, a Sama tomou a decisão estratégica de sair de todo o trabalho [de processamento de linguagem natural] e moderação de conteúdo para se concentrar em soluções de anotação de dados de visão computacional”, disse a empresa em um comunicado. “Passamos o ano passado trabalhando com clientes para fazer a transição desses compromissos e a saída será concluída em março de 2023.”

Mas a necessidade de os humanos rotularem dados para sistemas de IA permanece, pelo menos por enquanto. “Eles são impressionantes, mas o ChatGPT e outros modelos generativos não são mágicos – eles dependem de enormes cadeias de suprimentos de trabalho humano e dados extraídos, muitos dos quais não são atribuídos e usados sem consentimento”, escreveu recentemente Andrew Strait, especialista em ética de IA, em Tuíte. “Esses são problemas sérios e fundamentais que não vejo o OpenAI abordando.”

Com informações de TIME

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Denúncia: OpenAI pagou menos de US$ 2 para trabalhadores quenianos treinarem ChatGPT

Contratos da Sama

Como o relacionamento da OpenAI com a Sama entrou em colapso