Imagem: PeopleImages.com - Yuri A/Shutterstock
A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.
O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.
Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.
Leia mais:
Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.
Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.
Esta post foi modificado pela última vez em 6 de janeiro de 2025 19:24