Harvard vai liberar uso de livros de domínio público para treinar IA

Imagem: PeopleImages.com - Yuri A/Shutterstock

A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.

O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.

Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.

Leia mais:

Banco de dados disponibilizado por Harvard possui vasto conteúdo de livros de domínio público – Imagem: Jure Divich/Shutterstock

Treino de IA e os direitos autorais

A Microsoft e a OpenAI apoiam a iniciativa como parte de sua crença em criar “pools de dados acessíveis” para o desenvolvimento de IA.
O lançamento ocorre em meio a uma crescente discussão legal sobre o uso de dados protegidos por direitos autorais para treinar IA, com ações judiciais que podem mudar a forma como os modelos são treinados no futuro.
Harvard, por sua vez, também está trabalhando em colaboração com a Biblioteca Pública de Boston para digitalizar artigos de jornais de domínio público e está aberta a futuras parcerias.

Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.

Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.

Iniciativas para aprimorar modelos de IA sem ferir direitos autorais vão se disseminando – Imagem: Anggalih Prasetya/Shutterstock

Esta post foi modificado pela última vez em 6 de janeiro de 2025 19:24

Publicado por

Leandro Costa Criscuolo

Tags: domínio públicoInteligência Artificiallivros

14 de dezembro de 2024 06:10