Siga o Olhar Digital no Google Discover
Um processo de direitos autorais contra a Meta revelou detalhes internos sobre o desenvolvimento dos modelos de inteligência artificial (IA) de código aberto da empresa, conhecidos como Llama. Documentos judiciais, recentemente divulgados na Califórnia, mostram discussões internas que levantam preocupações sobre o uso de dados possivelmente protegidos por direitos autorais, incluindo esforços para evitar que o uso de conteúdo “pirata” viesse à tona.
Ofertas
Por: R$ 37,92
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
As comunicações internas destacam a competição acirrada entre a Meta e rivais como OpenAI e Mistral no desenvolvimento de IA. Em um e-mail de outubro de 2023, Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, afirmou que o objetivo da empresa era competir diretamente com o GPT-4 da OpenAI.
Al-Dahle enfatizou a necessidade de “aprender a construir fronteiras e vencer esta corrida”. Entre os dados utilizados para treinar os modelos, surgiu a menção ao controverso site de pirataria Library Genesis (LibGen).
Discussões sobre o uso de LibGen
Um e-mail de Sony Theakanath, diretor de produto da Meta, enviado a Joelle Pineau, vice-presidente de pesquisa em IA, detalha opções para o uso do LibGen. Entre elas, estavam utilizar o site internamente, incluir benchmarks em postagens de blog ou até mesmo treinar um modelo baseado em seu conteúdo. O e-mail revela que o uso do LibGen foi escalado até Mark Zuckerberg e aprovado para o Llama 3, desde que “mitigações acordadas” fossem aplicadas.
Entre essas medidas, estava a remoção de dados marcados como “pirateados” e evitar referências externas ao uso do LibGen nos treinamentos. Internamente, foi mencionado que rivais como OpenAI e Mistral já utilizavam dados do site, embora nenhuma dessas empresas tenha confirmado publicamente essa prática.

Riscos e estratégias para ocultar evidências
Além de preocupações legais, documentos internos mostram que a Meta também tomou medidas para ocultar informações sobre os dados utilizados. Sugestões incluíam remover cabeçalhos de direitos autorais, metadados e listas de autores de documentos para reduzir possíveis responsabilidades jurídicas.
A Meta também enfrentou críticas ao buscar formas alternativas de obter dados para seus modelos. Em 2023, relatórios indicaram que a empresa considerou a compra da editora Simon & Schuster e até a contratação de trabalhadores na África para resumirem livros sem permissão.
Leia mais:
- Meta: o que são as notas de comunidade? Veja diferença para o sistema de checagem de fatos
- Meta AI: como mudar a voz na IA do WhatsApp
- Quer conversar com uma IA no WhatsApp? Veja alternativas à Meta AI
Escassez de dados e impacto na competição
O setor de IA enfrenta um problema crescente: a escassez de novos dados. Líderes como o CEO da OpenAI, Sam Altman, negam a existência de um “muro de dados”, enquanto outros, como Ilya Sutskever, cofundador da OpenAI, admitiram que o setor atingiu o “pico de dados”. Essa limitação tem levado empresas a buscar fontes alternativas, como pagar criadores de conteúdo digital por materiais não utilizados.

A disputa acirrada entre gigantes da tecnologia para avançar em IA está gerando controvérsias e processos legais que podem moldar o futuro do setor. As evidências apresentadas no caso contra a Meta podem fortalecer as alegações de violação de direitos autorais, enquanto a indústria busca equilibrar inovação e conformidade legal.