Siga o Olhar Digital no Google Discover
Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas.
Ofertas
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.

Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.
Um oceano de dados livres e perigosos para as IAs usarem
- Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;
- Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;
- O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
- Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.
Leia mais:
- Privacidade em risco? Apps com IA pedem permissões excessivas
- Novo vazamento de dados ameaça privacidade de milhões
- Brasil é o sexto país com mais vazamento de dados no mundo
Desde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.

Privacidade em risco e leis de IAs ainda no século passado
O estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.
Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região.
Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.
O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.
