Treinar IA com vídeos do YouTube viola termos de uso, diz CEO

Tudo sobre Inteligência Artificial

Tudo sobre OpenAI

O CEO do YouTube, Neal Mohan, disse que usar os vídeos publicados na plataforma para treinar modelos de inteligência artificial (IA) seria uma “clara violação” dos termos de uso. A fala de Mohan, em entrevista à Bloomberg, pode ser interpretada como um aviso à OpenAI, desenvolvedora do ChatGPT, DALL-E e Sora.

Para quem tem pressa:

O CEO do YouTube, Neal Mohan, declarou que usar vídeos publicados na plataforma para treinar modelos de IA, como o Sora da OpenAI, violaria os termos de serviço;
A CTO da OpenAI, Mira Murati, expressou incerteza sobre o uso de dados do YouTube (e outras plataformas nas quais se posta vídeos, como Instagram e Facebook) para treinar o Sora. A fala reforçou questões sobre as práticas da empresa no desenvolvimento de suas tecnologias de IA;
A discussão enfatiza a complexidade e a controvérsia em torno do uso de conteúdo licenciado para treinar plataformas de IA. No caso do YouTube, seu CEO defendeu os direitos e expectativas dos seus criadores de conteúdo;
O debate sobre o treinamento de IA com vídeos do YouTube integra um contexto de preocupações legais e éticas na indústria de IA, onde a transparência e o respeito pelos direitos autorais se tornam cada vez mais centrais.

A CTO da OpenAI, Mira Murati, disse que não tinha certeza se o treinamento do Sora, plataforma que gera vídeos a partir de comandos de texto, usa dados do YouTube ou de outras plataformas nas quais se posta vídeos, como Instagram e Facebook. A fala de Mira ocorreu durante entrevista ao Wall Street Journal.

Leia mais:

Sora e YouTube: o imbróglio no treinamento da IA

Na conversa com Emily Chang, do Bloomberg Originals, o CEO do YouTube disse: “Do ponto de vista de um criador [de conteúdo], quando um criador faz o upload de seu trabalho árduo para nossa plataforma, ele tem certas expectativas. Uma dessas expectativas é que os termos de serviço serão cumpridos. Isso não permite coisas como o download de transcrições ou trechos de vídeo, e isso é uma clara violação dos nossos termos de serviço. Essas são as regras do jogo em termos de conteúdo em nossa plataforma.”

Até hoje, ninguém sabe ao certo como a OpenAI treina suas plataformas de IA, seja o ChatGPT, o DALL-E ou o Sora. Talvez Mohan tenha citado especificamente transcrições porque o WSJ publicou, na segunda-feira (1º), que a OpenAI planejava usar transcrições de vídeos do YouTube para treinar o GPT-5 – próxima geração do “cérebro” do ChatGPT.

Enquanto isso, o Gemini – IA do Google que é rival tanto do ChatGPT quanto do Copilot (IA da Microsoft, parceira da OpenAI, que usa GPT) – aparentemente segue tais “regras do jogo” citadas por Mohan. Pelo menos, no que diz respeito ao YouTube – que, aliás, é do Google. Segundo o CEO da plataforma, o treinamento do Gemini só usa vídeos conforme permissões concedidas em cada contrato de licenciamento assinado pelo criador do conteúdo em questão.

O caso é mais um desdobramento do imbróglio relacionado a treinamento de IA generativa – que “cria” algo – e conteúdo licenciado. Grandes veículos e plataformas (Getty Images e The New York Times, por exemplo) abriram processos judiciais contra desenvolvedoras deste tipo de plataforma. A OpenAI fica na mira com frequência. Mas mantém sua “fórmula secreta” guardada a sete chaves.