Todos os dias, uma quantidade enorme de dados é gerada na internet. Mas, chegará um momento em que esses montantes não serão o bastante para treinar as inteligências artificiais. Segundo uma investigação realizada por um grupo de pesquisadores, até 2026, poderemos não ter combustível (ou dados) suficiente para alimentar a tecnologia.

Se essa tendência continuar, a velocidade de aprimoramento das IAs, especialmente as de grande porte, como o ChatGPT, pode diminuir drasticamente.

publicidade

Confira o estudo em inglês clicando aqui. Ele foi conduzido por integrantes de diferentes universidades, incluindo o MIT Computer Science & Artificial Intelligence Laboratory.

Previsões da pesquisa:

  • A indústria de IA tem treinado sistemas em conjuntos de dados cada vez maiores, resultando em modelos de alto desempenho, como ChatGPT e DALL-E.
  • Pesquisas indicam que estamos gerando dados online numa velocidade menor do que é preciso para treinar uma IA.
  • Um grupo de pesquisadores previu que a escassez de dados de texto de alta qualidade pode ocorrer antes de 2026, seguindo as atuais tendências.
  • Estimativas apontam que dados linguísticos de baixa qualidade podem acabar entre 2030 e 2050, e dados de imagens de baixa qualidade entre 2030 e 2060.
  • A contribuição potencial da IA para a economia mundial até 2030 é estimada em 15,7 bilhões de dólares, segundo a PwC. Porém, falta de dados utilizáveis pode atrasar o desenvolvimento da IA.

Leia mais:

publicidade

Quantos e quais dados são preciso para treinar uma IA?

Para desenvolver uma IA de alto desempenho é preciso uma quantidade enorme de dados. O ChatGPT, por exemplo, foi treinado com 570 gigabytes de dados de texto — algo em torno de 300 bilhões de palavras. Já o algoritmo de difusão estável, usado por DALL-E, Lensa e Midjourney, foi treinado por um conjunto de dados com 5,8 bilhões de pares de imagem-texto.

A quantidade de dados impacta diretamente a qualidade da IA. Caso ela seja treinada com menos do que precisa, pode gerar resultados insatisfatórios ou imprecisos. É a mesma lógica para o tipo de dado utilizado. Se tiverem como fonte publicações em redes sociais, as resposta da tecnologia podem carregar preconceitos ou informações inverídicas. Um caso desses aconteceu com a Microsoft. A empresa treinou seu bot com dados do X (antigo Twitter), resultando em conteúdos racista e misóginos.

publicidade

É por esse motivo que os profissionais da área preferem ter como fonte os textos de livros, artigos online, artigos científicos e determinados conteúdos filtrados da web.

As possíveis soluções

  • Desenvolvedores podem aprimorar algoritmos para usar dados já coletado com maior eficiência. Isso vai diminuir a quantidade da informação e poder computacional necessário e consequentemente a pegada de carbono da IA.
  • Também é possível que a IA gere dados sintéticos de treinamento. Isso quer dizer que os profissionais vão poder criar dados sob medida para seus modelos.
  • A disponibilização digital de conteúdo fora do espaço online, como textos de editoras e repositórios offline, é outra alternativa.
  • Além disso, segundo a Tech Explore, estão ocorrendo negociações de acordos entre empresas de IA e grandes proprietários de conteúdo, como a News Corp, para remunerar criadores de conteúdo. Assim, os desenvolveram terão acesso a mais conteúdos, enquanto organizações serão recompensadas.