Grande parte dos treinamentos das IAs atuais, como o ChatGPT, da OpenAI, e o Bard, do Google, aconteceu na internet. Isso porque os modelos de linguagem são treinados a partir de conteúdos, palavras e frases já existentes – e que melhor lugar para isso do que online?

No entanto, a OpenAI é uma das empresas que não detalha exatamente de onde obteve seus dados, que pode ser desde trabalhos com direitos autorais a publicações pessoais de internautas. Agora, a desenvolvedora do ChatGPT anunciou que permitirá ao usuário bloquear o rastreador responsável por coletar os dados dos usuários.

publicidade

Leia mais:

Para que serve o bloqueador

A OpenAI publicou em seu blog que os programadores de sites podem proibir especificamente o rastreador GPTBot, responsável por rastrear páginas da web acessadas por um usuário, ou ainda bloquear seu endereço IP, que torna o dispositivo uma espécie de rastreador de dados.

publicidade

Segundo a empresa, as páginas da web rastreadas com o recurso ajudam a treinar os modelos de linguagem das IAs.

Páginas da Web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas.

OpenAI, em seu blog

Ainda segundo a desenvolvedora, se uma fonte não se enquadrar nos critérios delimitados acima, ela permite que “o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”.

publicidade

chatgpt
OpenAI permitiu que desenvolvedores de sites bloqueiem o rastreador da empresa (Imagem: Rokas Tenys/Shutterstock)

Contexto

  • O fornecimento de dados para o treinamento de IAs se tornou assunto controverso nas redes sociais, uma vez que essa permissão nem sempre é concedida pelas pessoas online;
  • Segundo o The Verge, empresas, como Reddit e Twitter, já pressionaram para impedir que as desenvolvedoras de IA usem dados e publicações dos seus usuários para treinar a tecnologia;
  • Porém, atualmente, a OpenAI não detalha de onde obteve os dados para o treinamento do ChatGPT ou outras ferramentas da companhia. Eles podem ter vindo de posts em redes sociais, trabalhos com direitos autorais ou literalmente qualquer parte da internet a qual a empresa conseguiu acesso;
  • Ou seja, não é possível saber se a IA está ou não usando o que o usuário acessa para alimentá-la.

publicidade
ChatGPT
Os modelos de linguagem atuais foram treinados a partir de conteúdos ja existentes (Imagem: Diego Thomazini/Shutterstock)

O que isso significa para a OpenAI

Com a possibilidade de bloquear o bot responsável por coletar atividades dos usuários, a OpenAI pode ficar sem esses dados.

Recentemente, a empresa se reuniu com o governo dos Estados Unidos para desenvolver sistema que aplicaria marca d’água em conteúdos gerados por IA. No entanto, a empresa de Sam Altman não concordou em parar de usar informações da internet para treinamento.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!