Compartilhando da opinião de especialistas em IA, Elon Musk falou sobre a falta de dados reais para treinar modelos de inteligência artificial, afirmando que já esgotamos o conhecimento humano disponível para esse treinamento.
Em uma conversa com o presidente da Stagwell, Mark Penn, transmitida ao vivo no X (Twitter), Musk declarou que o processo de treinamento de IA alcançou um limite no ano passado.
Ele também ecoou as preocupações de Ilya Sutskever, ex-cientista-chefe da OpenAI, que em uma conferência em dezembro indicou que a indústria de IA atingiu o “pico de dados”. Sutskever previu que a escassez de dados reais forçará mudanças na forma como os modelos são desenvolvidos.
Musk, dono da xAI, sugeriu que a solução para essa escassez seria o uso de dados sintéticos, ou seja, dados gerados pelos próprios modelos de IA.
Leia mais:
- Para além de Tesla e SpaceX: descubra os projetos mais ambiciosos de Elon Musk
- Algoritmo do X teria favorecido Elon Musk e outros perfis conservadores
- Nos EUA, o X de Musk mostra conteúdo político até para quem não quer

A vantagem dos dados sintéticos
- Musk acredita que, com o uso de dados sintéticos, os modelos de IA poderiam passar por um processo de autoaprendizado e se aperfeiçoar de forma mais eficaz.
- Essa abordagem já é adotada por gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic.
- Por exemplo, o modelo Phi-4 da Microsoft foi treinado com dados sintéticos, assim como os modelos Gemma do Google e o Claude 3.5 Sonnet da Anthropic.
O uso de dados sintéticos tem se mostrado vantajoso, principalmente em termos de custo.
A startup de IA Writer, por exemplo, desenvolveu seu modelo Palmyra X 004 quase inteiramente com dados sintéticos, gastando apenas US$ 700.000, comparado aos US$ 4,6 milhões estimados para um modelo de tamanho semelhante da OpenAI.
No entanto, o treinamento com dados sintéticos também apresenta desvantagens, como o risco de reduzir a criatividade dos modelos e aumentar os vieses em suas respostas.
Isso ocorre porque, ao gerar seus próprios dados, os modelos podem perpetuar os problemas presentes nos dados de treinamento originais, comprometendo sua eficácia e imparcialidade.
