O gerador de imagens por IA, Midjourney, rapidamente se tornou uma das ferramentas mais atraentes da Internet, criando visuais falsos de aparência realista do ex-presidente Donald Trump sendo preso e do Papa Francisco vestindo um casaco estiloso visando “expandir os poderes imaginativos da espécie humana”.

Mas a empresa de um ano de vida, administrada em São Francisco com apenas uma pequena coleção de consultores e engenheiros, também tem autoridade ilimitada para determinar como esses poderes são usados.

publicidade

Leia mais:

Ele permite, por exemplo, que os usuários gerem imagens do presidente Biden, Vladimir Putin, da Rússia, e outros líderes mundiais – mas não do presidente da China, Xi Jinping.

publicidade

“Só queremos minimizar o drama”, disse o fundador e CEO da empresa, David Holz, no ano passado em post no serviço de bate-papo Discord. “A sátira política na China não é legal”, acrescentou, e “a capacidade das pessoas na China de usar essa tecnologia é mais importante do que sua capacidade de gerar sátira”.

A inconsistência mostra como um poderoso líder inicial em arte de IA e mídia sintética está criando regras para seu produto em tempo real. Sem padrões uniformes, empresas individuais estão decidindo o que é permitido – e, neste caso, quando se curvar a governos autoritários.

publicidade

A abordagem da Midjourney ecoa o manual inicial das principais redes sociais, cujas regras de moderação negligentes as tornavam vulneráveis a interferência estrangeira, desinformação viral e discurso de ódio.

Mas pode representar riscos únicos, uma vez que algumas ferramentas de IA criam cenas fictícias envolvendo pessoas reais – cenário propício para assédio e propaganda.

publicidade

“Houve queima lenta da IA por um bom tempo, e agora há incêndio”, disse Katerina Cizek, do MIT Open Documentary Lab, que estuda a interação humano-computador e a narrativa interativa, entre outros tópicos.

A Midjourney oferece exemplo especialmente revelador de como o desenvolvimento da inteligência artificial ultrapassou a evolução das regras para seu uso. Em um ano, o serviço conquistou mais de 13 milhões de membros e, graças às suas assinaturas mensais, fez da Midjourney um dos novos negócios mais promissores do setor de tecnologia.

Mas o site da Midjourney lista apenas um executivo, Holz, e quatro consultores; uma equipe de pesquisa e engenharia de oito pessoas; e uma equipe jurídica e financeira de duas pessoas.

Ele diz que tem cerca de três dúzias de “moderadores e guias”. Seu site diz que a empresa está contratando: “Venha nos ajudar a escalar, explorar e construir infraestrutura humanista focada em ampliar a mente e o espírito humanos.”

Muitas das falsificações do Midjourney, como imagens de paparazzi recentemente fabricadas do proprietário do Twitter, Elon Musk, com a deputada Alexandria Ocasio-Cortez, podem ser criadas por um artista habilidoso usando um software de edição de imagem como o Adobe Photoshop.

Mas as ferramentas de imagem de IA da empresa permitem que qualquer pessoa as crie instantaneamente – incluindo, por exemplo, uma imagem falsa do presidente John F. Kennedy apontando um rifle – simplesmente digitando um texto.

A Midjourney está entre várias empresas que estabeleceram domínio inicial no campo da arte da IA, de acordo com especialistas, que identificam seus principais pares como Stable Diffusion e DALL-E, desenvolvido pela OpenAI, criadora do modelo de linguagem AI ChatGPT. Todos foram lançados publicamente no ano passado.

Mas as ferramentas têm diretrizes completamente diferentes para o que é aceitável. As regras da OpenAI instruem os usuários do DALL-E a se aterem ao conteúdo “classificado para menores” e bloqueiam a criação de imagens envolvendo políticos, bem como “grandes conspirações ou eventos relacionados a grandes eventos geopolíticos em andamento”.

O Stable Diffusion, lançado com poucas restrições a imagens sexuais ou violentas, impôs algumas regras, mas permite que as pessoas baixem seu software de código aberto e o usem sem restrições.

Emad Mostaque, CEO da Stability AI, a start-up por trás da Stable Diffusion, disse ao The Verge no ano passado que “em última análise, é responsabilidade das pessoas saber se são éticas, morais e legais”.

As diretrizes da Midjourney ficam no meio, especificando que os usuários devem ter pelo menos 13 anos e afirmando que a empresa “tenta tornar seus serviços familiares”, enquanto avisa: “Esta é nova tecnologia e nem sempre funciona como esperado.”

As diretrizes proíbem conteúdo adulto e gore, bem como prompts de texto que são “inerentemente desrespeitosos, agressivos ou abusivos”. Eliot Higgins, fundador do canal investigativo de código aberto Bellingcat, disse que foi expulso da plataforma sem explicação na semana passada depois que uma série de imagens que ele fez no Midjourney fabricando a prisão de Trump em Nova York se tornou viral nas redes sociais.

Na terça-feira (28), a empresa interrompeu os testes gratuitos devido a “demanda extraordinária e abuso de teste”, escreveu Holz no Discord, sugerindo que usuários não pagantes estavam manipulando mal a tecnologia e dizendo que suas “novas seguranças para abuso não parecem ser suficiente.” As taxas de assinatura mensal variam de US$ 10 a US$ 60.

Imagem: Midjourney

E em sessão de “horário comercial” do Midjourney na quarta-feira (29), Holz disse a audiência ao vivo de cerca de duas mil pessoas no Discord que estava lutando para determinar as regras de conteúdo, especialmente para retratar pessoas reais, “à medida que as imagens se tornam cada vez mais realistas e as ferramentas ficam cada vez mais poderosas.”

“Existe argumento para ir totalmente para a Disney ou para o Velho Oeste, e tudo no meio é meio doloroso”, disse ele. “Estamos meio que no meio agora e não sei como me sentir sobre isso.”

A empresa, disse ele, estava trabalhando para refinar as ferramentas de moderação de IA que revisariam as imagens geradas por má conduta.

Holz não respondeu aos pedidos de comentários doThe Washington Post. Consultas enviadas a um endereço de imprensa da empresa também ficaram sem resposta.

Em entrevista ao Post em setembro passado, Holz disse que o Midjourney era um “laboratório muito pequeno” de “dez pessoas, sem investidores, apenas fazendo isso pela paixão, para criar mais beleza e expandir os poderes imaginativos do mundo”.

A Midjourney, ele disse na época, tinha 40 moderadores em diferentes países, alguns deles pagos, e que o número mudava constantemente. As equipes de moderadores, disse ele, foram autorizadas a decidir se precisavam expandir seus números para lidar com o trabalho, acrescentando: “Acontece que 40 pessoas podem ver muito do que está acontecendo.”

Mas ele também disse que a Midjourney e outros geradores de imagens enfrentaram o desafio de policiar o conteúdo em “economia sensacionalista”, na qual as pessoas que ganham a vida alimentando a indignação tentariam fazer mau uso da tecnologia.

A experiência de Holz varia de neuroimagem de cérebros de ratos a sensoriamento remoto na NASA, de acordo com seu perfil no LinkedIn. Ele tirou licença de programa de doutorado em matemática aplicada na Universidade da Carolina do Norte em Chapel Hill para cofundar a Leap Motion em 2010, desenvolvendo tecnologia de reconhecimento de gestos para experiências de realidade virtual. Ele deixou a empresa em 2021 para fundar a Midjourney.

Holz ofereceu algumas pistas sobre os fundamentos da tecnologia da Midjourney, especialmente quando a ferramenta estava prestes a ser lançada ao público.

No início do ano passado, ele escreveu no Discord que o sistema utilizava os nomes de quatro mil artistas. Ele disse que os nomes vieram da Wikipédia. Holz desviou as conversas dos dados de treinamento da IA, escrevendo ainda no ano passado: “Este provavelmente não é um bom lugar para discutir questões legais.”

A empresa estava entre os vários réus em ação coletiva movida em janeiro por três artistas que acusaram a Midjourney e duas outras empresas de violar a lei de direitos autorais usando “bilhões de imagens protegidas por direitos autorais sem permissão” para treinar suas tecnologias.

Os artistas “buscam acabar com essa violação flagrante e enorme de seus direitos antes que suas profissões sejam eliminadas por um software alimentado inteiramente por seu trabalho árduo”, de acordo com a queixa, apresentada no Tribunal Distrital dos EUA para o Distrito norte da Califórnia.

A Midjourney ainda não respondeu às reivindicações no tribunal, e a empresa não respondeu a uma pergunta do The Post sobre o processo.

Os termos de serviço online da empresa buscam abordar questões de direitos autorais. “Respeitamos os direitos de propriedade intelectual de terceiros”, declaram os termos, fornecendo instruções sobre como entrar em contato com a empresa com reclamação de violação de direitos autorais. Os termos de serviço também especificam que os usuários possuem o conteúdo que criam apenas se forem membros pagantes.

Um documento apresentado no mês passado pelos advogados da Midjourney no processo federal afirma que Holz é a única pessoa com interesse financeiro na empresa.

As finanças da empresa são opacas. Na primavera estadunidense do ano passado, vários meses antes de a tecnologia ser lançada publicamente, Mostaque, chefe da empresa-mãe da Stable Diffusion, escreveu no servidor Discord público da Midjourney que havia “ajudado a financiar a expansão beta” e estava “falando de perto com a equipe.”

Mostaque também sugeriu que a Midjourney oferecia alternativa ao lucro do Vale do Silício. Ele disse que a empresa estava trabalhando “de forma colaborativa e alinhada versus extrativa”. Seria fácil, escreveu ele, obter financiamento de capital de risco “e vender para grandes empresas de tecnologia”, mas sugeriu que isso “não vai acontecer”.

Um porta-voz da Stability AI disse que a empresa “fez contribuição modesta para a Midjourney em março de 2021 para financiar seu poder de computação”, acrescentando que Mostaque “não tem função na Midjourney”.

Na corrida para construir geradores de imagem de IA, a Midjourney ganhou vantagem inicial sobre seus concorrentes no verão passado, produzindo gerações mais artísticas e surreais.

Essa técnica estava em exibição quando o proprietário de uma empresa de jogos de tabuleiro de fantasia usou o Midjourney para vencer uma competição de artes plásticas na Feira Estadual do Colorado.

A qualidade altamente estética das imagens também parecia, pelo menos para Holz, uma proteção contra o abuso da ferramenta para criar imagens fotorrealistas.

“Você realmente não pode forçá-lo a fazer um deepfake agora”, disse Holz em uma entrevista em agosto ao The Verge.

Nos meses seguintes, a Midjourney implementou atualizações de software que melhoraram muito sua capacidade de transformar rostos reais em arte gerada por IA – e a tornaram um popular brinquedo de mídia social para suas falsificações virais.

As pessoas que desejam criar um precisam apenas acessar o Discord e digitar um prompt, ao lado da palavra “/imagine”, e descrever o que desejam que a IA crie. Em segundos, a ferramenta produz imagem que o solicitante pode baixar, modificar e compartilhar como bem entender.

Shane Kittelson, um web designer e pesquisador em Boca Raton, Flórida, disse que passa várias horas todas as noites depois que seus dois filhos vão para a cama usando Midjourney para criar o que ele chama de “história ligeiramente alterada” de pessoas reais em cenas imaginárias.

Muitas de suas criações, que ele publica em uma conta do Instagram chamada Schrödinger’s Film Club, abordam a cultura pop dos anos 80, com algumas de suas primeiras imagens mostrando os atores originais de “Star Wars” no lendário festival de música Woodstock.

Mas ultimamente ele tem experimentado mais com imagens de celebridades e legisladores modernos, algumas das quais foram compartilhadas no Reddit, Twitter e YouTube.

Em uma coleção recente, as principais figuras políticas parecem se soltar em festa de primavera: Trump desmaia na areia; o ex-presidente Barack Obama é banhado em notas de dólar; e o senador Marco Rubio desmorona em “desespero em uma viagem ruim”.

Kittelson disse que sempre rotula suas imagens como geradas por IA, embora não possa controlar o que as pessoas fazem com elas quando estão online. E ele teme que o mundo não esteja preparado para o quão realistas as imagens se tornaram, especialmente devido à falta de ferramentas para detectar falsificações ou regulamentações governamentais que restringem seu uso.

Há dias em que a mudança de ritmo em termos de IA me desconcerta, e eu fico tipo: isso está indo rápido demais. Como vamos entender isso?

Shane Kittelson, web designer e pesquisador

As imagens geradas no Midjourney por Seb Diaz, usuário em Ontário que trabalha com incorporação imobiliária, também provocaram discussões sobre a capacidade de fabricar eventos históricos.

Na semana passada, ele delineou com detalhes precisos um desastre falso que chamou de terremoto Great Cascadia que, segundo ele, atingiu a costa de Oregon em 3 de abril de 2001 e devastou o noroeste do Pacífico.

Para imagens, ele gerou uma foto de crianças atordoadas no aeroporto de Portland; cenas de destruição no Alasca e no estado de Washington; fotos falsas de equipes de resgate trabalhando para libertar residentes presos dos escombros; e até mesmo uma foto falsa de um repórter ao vivo no local.

Ele disse que usou frases como “câmera de vídeo amadora” e “imagens de notícias” para emular as gravações analógicas da época. Em outra coleção, ele criou falsa supertempestade solar de 2012, incluindo entrevista coletiva fictícia da NASA e Obama como presidente assistindo do telhado da Casa Branca.

O detalhe realista das cenas surpreendeu alguns espectadores em fórum de discussão do Reddit dedicado ao Midjourney, com um usuário escrevendo: “As pessoas em 2100 não saberão quais partes da história eram reais.”

Imagem: Midjourney

Outros, porém, temiam como a ferramenta poderia ser mal utilizada. “O que mais me assusta são as nações com armas nucleares […] gerando imagens e áudio falsos para criar bandeiras falsas”, disse outro usuário. “Isso é ouro de propaganda.”

Se o dano é feito, em última análise, é imprevisível, disse Diaz. “Vai ser responsabilidade do criador”, disse ele.

Nas mensagens do Discord no ano passado, Holz disse que a empresa havia “bloqueado um monte de palavras relacionadas a tópicos em diferentes países” com base em reclamações de usuários locais, mas que não listaria os termos banidos para minimizar o “drama”, segundo logs de bate-papo revisados pelo The Post.

Os usuários relataram que as palavras “Afeganistão”, “afegão” e “afegani” estão fora dos limites. E parece haver novas restrições à representação de prisões depois que a apreensão imaginária de Trump se tornou viral.

Holz, em seus comentários no Discord, disse que as palavras proibidas não eram todas relacionadas à China. Mas ele reconheceu que o país era um caso especialmente delicado porque, segundo ele, a sátira política poderia colocar em risco os usuários chineses.

Empresas de tecnologia mais estabelecidas têm enfrentado críticas sobre os compromissos que fazem para operar na China. No Discord, Holz procurou esclarecer os incentivos por trás de sua decisão, escrevendo: “Não somos motivados por dinheiro e, neste caso, o bem maior é obviamente que as pessoas na China tenham acesso a essa tecnologia”. A lógica intrigou alguns especialistas.

“Para os ativistas chineses, isso limitará sua capacidade de se envolver em conteúdo crítico, tanto dentro quanto fora da China”, disse Henry Ajder, pesquisador de IA baseado no Reino Unido. “Também parece um padrão duplo se você permite que presidentes e líderes ocidentais sejam visados, mas não líderes de outras nações”.

A política também parecia fácil de contornar. Enquanto os usuários que solicitam a tecnologia para gerar imagem envolvendo “Jinping” ou o “presidente chinês” são frustrados, um prompt com uma variação dessas palavras, tão simples quanto “presidente da China”, produz rapidamente uma imagem de Xi. Um site taiwanês oferece um guia sobre como usar o Midjourney para criar imagens zombando de Xi e apresenta muito do Ursinho Pooh, o personagem de desenho animado censurado na China e comumente usado como provocação de Xi.

Outros geradores de arte de IA foram construídos de forma diferente, em parte para evitar tais dilemas. Entre eles está o Firefly, revelado na semana passada pela Adobe.

A gigante do software, treinando sua tecnologia em banco de dados de fotografias licenciadas e com curadoria da empresa, criou modelo “com a intenção de ser comercialmente seguro”, disse o conselheiro geral e diretor de confiança da Adobe, Dana Rao, em entrevista. Isso significa que a Adobe pode gastar menos tempo bloqueando solicitações individuais, disse Rao.

A Midjourney, ao contrário, enfatiza sua autoridade para aplicar suas regras arbitrariamente. “Não somos uma democracia”, afirma o conjunto sobressalente de diretrizes da comunidade publicado no site da empresa. “Comporte-se com respeito ou perca seus direitos de usar o serviço.”

Via The Washington Post

Imagem destacada: salarko/Shutterstock

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!