A OpenAI, desenvolvedora do ChatGPT, anunciou que quer trabalhar com organizações parceiras para criar um conjunto de dados públicos e privados destinados ao treinamento de modelos de Inteligência Artificial (IA). Para o seu chatbot, a empresa usou dados abertos disponíveis na internet, e não provenientes de um banco, como quer agora.
Leia mais:
- Microsoft proíbe uso do ChatGPT e se arrepende; entenda
- ChatGPT-4 Browsing: o que é e como funciona o chatbot que acessa a web
- ChatGPT com problemas? Veja como resolver
Banco de dados aberto
- Não é segredo que a OpenAI usou dados disponíveis na internet para treinar seu modelo de linguagem, o GPT (que alimenta o ChatGPT).
- Inclusive, isso gerou polêmicas. Por exemplo, jornais internacionais, como o The New York Times, a CNN e a Reuters, bloquearam o modelo de linguagem de acessar seus sites e usar as informações para treinar a IA. O Olhar Digital falou sobre isso aqui.
- Agora, de acordo com uma postagem de blog da empresa, ela quer criar um banco de dados destinado a essa finalidade.
- Isso poderia ajudar chatbots e outras ferramentas geradoras a produzirem dados e textos com maior variedade, com estilos diferenciados, como um discurso mais coloquial e natural à fala humana.

O que a OpenAI disse
A OpenAI disse estar em busca de parceiros que ajudem na criação desse conjunto de dados, tanto públicos quanto privados. O banco seria aberto para qualquer pessoa que queira usá-lo para treinar um modelo de linguagem de IA.
Ainda, dados privados serão destinados a outros tipos de IA.
Procuramos particularmente dados que expressem a intenção humana, em qualquer idioma, tópico e formato.
OpenAI, em post de blog