Dados sintéticos podem salvar a IA, mas há um preço

O uso crescente de dados sintéticos para treinar IAs pode resolver a escassez de dados reais, mas traz riscos
Ana Luiza Figueiredo14/01/2025 16h07
criação de dados sintéticos
(Imagem: Pixel DNA / Shutterstock.com)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Nos últimos dias, Elon Musk, bilionário e proprietário do X, afirmou que o estoque de dados gerados por humanos, usados para treinar modelos de inteligência artificial (IA), como o ChatGPT, chegou ao fim. Embora Musk não tenha apresentado provas concretas para sustentar sua afirmação, outros líderes da indústria de tecnologia têm feito declarações semelhantes nos últimos meses.

Pesquisas anteriores indicavam que os dados gerados por humanos poderiam se esgotar dentro de dois a oito anos, o que levanta uma preocupação crescente no setor.

O motivo dessa escassez é simples: a velocidade e a demanda dos modelos de IA crescem em um ritmo que os seres humanos não conseguem acompanhar, gerando texto, imagens e vídeos suficientes. Quando os dados genuínos começarem a se esgotar, isso trará um grande desafio para desenvolvedores e usuários de IA.

elon musk
Elon Musk alertou sobre o esgotamento de dados reais (Imagem: Frederic Legrand – COMEO / Shutterstock.com)

Essa situação forçará as empresas a dependerem mais de dados gerados por IA, chamados de dados sintéticos. Porém, isso pode resultar em sistemas de IA menos precisos e confiáveis, comprometendo sua utilidade.

O que são dados sintéticos e como eles funcionam?

  • Os dados sintéticos são criados artificialmente por algoritmos, como textos gerados pelo ChatGPT ou imagens criadas pelo DALL-E.
  • Essa tecnologia oferece uma solução mais rápida e econômica para o treinamento de modelos de IA, além de ajudar a resolver questões de privacidade e ética, especialmente em relação a dados pessoais sensíveis, como informações de saúde.
  • Diferente dos dados reais, que são limitados, os dados sintéticos são ilimitados e, teoricamente, disponíveis em abundância.
  • Com isso, muitas empresas de tecnologia têm se voltado cada vez mais para o uso de dados sintéticos para treinar suas IAs.
  • A pesquisa da Gartner prevê que, até 2030, os dados sintéticos serão a principal fonte utilizada para alimentar esses sistemas.
  • No entanto, apesar de suas vantagens, esses dados não estão livres de desafios e riscos.
chatgpt da openai
Dados sintéticos são aqueles criados artificialmente por algoritmos, como textos do ChatGPT e imagens criadas por ferramentas de IA (Imagem: One Artist / Shutterstock.com)

Desafios no uso de dados sintéticos

Embora os dados sintéticos apresentem inúmeras vantagens, eles também trazem consigo alguns riscos importantes. Um dos principais problemas é que os modelos de IA podem “colapsar” ao dependerem excessivamente de dados sintéticos. Isso acontece quando os sistemas começam a gerar muitas “alucinações” — respostas com informações falsas — e a qualidade do desempenho dos modelos cai a ponto de se tornarem inutilizáveis.

Além disso, a simplificação excessiva dos dados sintéticos pode resultar em modelos de IA que falham em capturar a complexidade e diversidade dos dados reais. Como exemplo, se um modelo for treinado apenas com dados sintéticos que apresentam erros de ortografia ou inconsistências, ele tenderá a replicar essas falhas, prejudicando a qualidade das respostas geradas.

Como garantir a qualidade dos dados sintéticos?

Para minimizar os riscos e garantir que os dados sintéticos possam realmente complementar os dados reais de forma eficaz, é crucial que organismos internacionais, como a Organização Internacional de Normalização (ISO) ou a União Internacional de Telecomunicações (UIT), implementem sistemas robustos para rastrear e validar os dados usados no treinamento de IA.

Isso permitiria que os sistemas pudessem identificar e garantir a qualidade dos dados durante o treinamento, preservando a transparência e a precisão dos modelos de IA.

Além disso, a supervisão humana continua sendo fundamental para garantir que os dados sintéticos sejam de alta qualidade. Durante o processo de treinamento, é essencial que os dados sintéticos sejam avaliados de forma constante quanto à sua conformidade com padrões éticos e à sua eficácia em melhorar o desempenho do modelo.

Leia mais:

O futuro da IA: sintética, mas confiável?

Embora os dados sintéticos possam se tornar uma peça-chave no desenvolvimento de IA devido à escassez de dados reais, seu uso deve ser cuidadosamente gerido. Se aplicados de maneira adequada, podem melhorar os modelos de IA, reduzindo os erros e preservando a privacidade.

Para que isso aconteça, no entanto, é essencial que sistemas transparentes e auditorias constantes estejam em vigor, garantindo que a IA continue precisa, confiável e útil para todos os usuários.

Em última análise, o futuro da IA depende da qualidade dos dados com os quais é alimentada. Enquanto os dados sintéticos têm o potencial de preencher a lacuna criada pela escassez de dados reais, seu uso deve ser cuidadosamente monitorado para garantir que não comprometam a confiança nos sistemas de inteligência artificial.

Ana Luiza Figueiredo é repórter do Olhar Digital. Formada em Jornalismo pela Universidade Federal de Uberlândia (UFU), foi Roteirista na Blues Content, criando conteúdos para TV e internet.