A OpenAI, desenvolvedora do ChatGPT, anunciou que quer trabalhar com organizações parceiras para criar um conjunto de dados públicos e privados destinados ao treinamento de modelos de Inteligência Artificial (IA). Para o seu chatbot, a empresa usou dados abertos disponíveis na internet, e não provenientes de um banco, como quer agora.

Leia mais:

publicidade

Banco de dados aberto

  • Não é segredo que a OpenAI usou dados disponíveis na internet para treinar seu modelo de linguagem, o GPT (que alimenta o ChatGPT).
  • Inclusive, isso gerou polêmicas. Por exemplo, jornais internacionais, como o The New York Times, a CNN e a Reuters, bloquearam o modelo de linguagem de acessar seus sites e usar as informações para treinar a IA. O Olhar Digital falou sobre isso aqui.
  • Agora, de acordo com uma postagem de blog da empresa, ela quer criar um banco de dados destinado a essa finalidade.
  • Isso poderia ajudar chatbots e outras ferramentas geradoras a produzirem dados e textos com maior variedade, com estilos diferenciados, como um discurso mais coloquial e natural à fala humana.
Pessoa prestes a tocar linhas de programação de inteligência artificial
Para o ChatGPT, OpenAI usou dados públicos na internet (Imagem: NicoElNino/Shutterstock)

O que a OpenAI disse

A OpenAI disse estar em busca de parceiros que ajudem na criação desse conjunto de dados, tanto públicos quanto privados. O banco seria aberto para qualquer pessoa que queira usá-lo para treinar um modelo de linguagem de IA.

Ainda, dados privados serão destinados a outros tipos de IA.

Procuramos particularmente dados que expressem a intenção humana, em qualquer idioma, tópico e formato.

OpenAI, em post de blog