Siga o Olhar Digital no Google Discover
Big techs, como Google, Microsoft e Baidu, utilizaram vídeos do YouTube — incluindo centenas de publicações de alguns dos maiores canais brasileiros — no treinamento de modelos de inteligência artificial (IA), em violação direta às normas da plataforma.
IA treinada com YouTube
- A prática envolveu o uso de mais de 700 vídeos do youtuber Felipe Neto, além de clipes de funk, reportagens e documentários, sem qualquer consulta prévia aos criadores;
- Os materiais integram a coleção YT-Temporal-180M, uma base de 5.494.771 vídeos extraídos do YouTube, citada por diversas gigantes de tecnologia em artigos técnicos sobre o desenvolvimento de modelos de IA;
- Também fazem parte do arquivo conteúdos da KondZilla (171 vídeos), do canal infantil Maria Clara & JP (74), do Correio do Povo (579) e da revista Veja (2.205);
- No total, a coleção ultrapassa 20 GB e já foi baixada 1.493 vezes, segundo registros da plataforma Hugging Face, onde está hospedada — em um servidor do próprio Google;
- Todo esse material, assim como pelo menos outros nove conjuntos de vídeos obtidos da plataforma, foi baixado em desacordo com os termos de uso do YouTube.

(Imagem: gguy/Shutterstock)
A plataforma proíbe o download automático de publicações e protege obras com direitos autorais em nome dos criadores. Ainda assim, empresas, como Google (que gere o YouTube), Microsoft e Baidu, utilizaram coleções de vídeos raspados para desenvolver modelos do tipo encoder, projetados para analisar e contextualizar cenas — etapa fundamental para sistemas mais avançados de inteligência artificial.
À Folha de S.Paulo, Anderson Soares, diretor do Centro de Excelência em Inteligência Artificial (CEIA) da Universidade Federal de Goiás (UFG), explica que ferramentas de vídeo que atuam como encoders são “excelentes pontos de partida” para a criação de sistemas mais complexos de IA.
O Google, além de desenvolver o encoder VideoPrism — citado em artigo acadêmico — também é dono do Veo 3, considerado o principal aplicativo comercial para geração de vídeos por IA, vendido a partir de R$ 96,99 por mês.
Um leque de possibilidades para treinar a IA
Conteúdos em idiomas diferentes do inglês são considerados estratégicos por empresas de IA, já que boa parte do material disponível em domínio público está concentrada nesse idioma. O YouTube, com mais de 20 bilhões de vídeos, funciona como uma espécie de repositório global de obras diversas — o que amplia o interesse de empresas em minerar conteúdos não anglófonos.
Ainda assim, é difícil mensurar exatamente o que cada empresa extraiu da plataforma, ressalta, à Folha, o professor de ciência da computação da Pontifícia Universidade Católica de São Paulo (PUC-SP) Diogo Cortiz, que aponta a crescente falta de transparência no setor desde o avanço do ChatGPT, em 2022. “Há muita falta de transparência na maioria das grandes empresas”, afirma.
O uso de conteúdos protegidos por direitos autorais para treinar IAs é atualmente alvo de disputas judiciais no exterior. De um lado, associações de jornais, produtores cinematográficos e artistas defendem que o emprego de obras originais só poderia ocorrer mediante licenciamento ou acordo contratual.
Do outro, empresas estadunidenses de tecnologia alegam que o procedimento se enquadra no conceito de “uso justo”. Elas também reivindicam interpretações mais permissivas da legislação de direitos autorais, argumentando que restrições excessivas poderiam frear a inovação.
Segundo a professora de direito digital Mariana Valente, da Universidade de St. Gallen (Suíça), em entrevista à Folha, tribunais ao redor do mundo ainda precisam definir se é necessária autorização explícita, pagamento ao autor ou se basta a concordância com os termos de uso das plataformas.

A exemplo, um tribunal alemão decidiu, neste mês, que a OpenAI violou os direitos do cantor Herbert Grönemeyer, dono de um canal no YouTube com 170 mil seguidores, após o ChatGPT reproduzir letras completas do artista. A sentença não abordou a etapa de treinamento. A empresa pode recorrer. “Não concordamos com o veredito e estamos avaliando os próximos passos”, disse a OpenAI em nota.
A decisão sobre eventual reparação financeira ainda será tomada pelo tribunal de Munique (Alemanha) e pode estabelecer precedente para outros casos na Europa.
Leia mais:
- 4 melhores inteligências artificiais para criar e editar vídeos
- 7 aplicativos que usam IA para você testar no dia a dia
- Temores de bolha de IA aumentam, mas analistas seguem confiantes
Além da mega coleção de vídeos
A coleção YT-Temporal-180M foi reunida em 2021 por pesquisadores do Allen Institute for AI, da Universidade de Washington (EUA), que afirmam ter usado a API do YouTube para baixar os vídeos sem consultar seus criadores. Eles dizem atender a pedidos de remoção de conteúdo para respeitar privacidade e direitos autorais.
Além dessa base, artigos acadêmicos de big techs mencionam outras coleções de vídeos baixados em massa, algumas reveladas pela revista The Atlantic. Como os vídeos são identificados apenas por códigos aleatórios, sem referência ao país de origem, é difícil determinar a proporção exata de conteúdos brasileiros utilizados nos treinamentos.
O que dizem as citadas
Em nota, o YouTube afirmou que garante aos criadores e detentores de direitos o controle sobre como seu conteúdo é utilizado. A plataforma permite que usuários autorizem, nas configurações avançadas de seus canais, o compartilhamento de vídeos com empresas de tecnologia.

O Google e o YouTube também usam publicações dos canais no desenvolvimento de seus próprios modelos de inteligência artificial, prática que, segundo a empresa, busca “o fortalecimento de nossas operações de segurança e o aprimoramento de nossos sistemas de recomendação, até o desenvolvimento de novos recursos de IA generativa, como a dublagem automática”. Para utilizar o serviço, é necessário aceitar essa condição.
O Google não comentou o uso de vídeos minerados por terceiros em violação às regras do YouTube, empresa do mesmo conglomerado. Microsoft, Nvidia e OpenAI disseram que não irão se pronunciar. O Olhar Digital tentou contato com a Baidu, mas não obteve êxito.