Dados 'anônimos' não são tão anônimos assim, dizem estudantes de Harvard

Sempre que há notícia de um grande vazamento ou coleta não autorizada de dados, é comum as empresas responsáveis se esconderem atrás da desculpa de que os dados são anonimizados e, como armazenados, não podem ser usados para identificar um usuário específico. Entretanto, uma análise realizada por dois estudantes da Universidade de Harvard mostra que os dados anonimizados não são tão “inócuos” quanto as empresas tentam fazer você acreditar.

Dasha Metropolitansky e Kian Attari, estudantes da Escola de Engenharia e Ciências Aplicadas John A. Paulson, de Harvard, construíram recentemente uma ferramenta, desenvolvida para um trabalho de classe que ainda não foi publicado, que vasculha e correlaciona vastos conjuntos de dados de consumidores expostos por vazamentos.

“O programa coleta uma lista de informações pessoalmente identificáveis, como uma lista de e-mails ou nomes de usuários, e procura nos vazamentos todos os dados de credenciais que puder encontrar para cada pessoa”, disse Attari em comunicado à imprensa.

Sua ferramenta analisou milhares de conjuntos de dados, originários de incidentes como o hack da Experian em 2015 até invasões que afetaram serviços como o MyHeritage e sites pornográficos. Apesar de muitos desses conjuntos conterem dados “anônimos”, os alunos dizem que não foi tão difícil identificar usuários reais.

“Um vazamento individual é como uma peça de um quebra-cabeça”, diz Metropolitansky. “Por si só, não é particularmente poderoso, mas quando vários vazamentos são reunidos, eles formam uma imagem surpreendentemente clara de nossas identidades. As pessoas se esquecem destes vazamentos, mas os hackers têm boa memória”

Por exemplo, uma empresa pode armazenar apenas nomes de usuário, senhas, endereços de email e outras informações básicas da conta, mas outra empresa pode ter armazenado dados de navegação ou localização. Independentemente, eles não podem identificá-lo, mas coletivamente revelam vários detalhes que nem seus amigos e familiares mais íntimos conhecem.

“Mostramos que um conjunto de dados ‘anonimizado’ de um local pode ser facilmente vinculado a um conjunto de dados não anonimizado de outro lugar por meio de informações em comum que aparecem nos dois conjuntos”, disse Metropolitansky. “Portanto, não devemos assumir que nossas informações pessoais são seguras apenas porque uma empresa afirma limitar o quanto ela coleta e armazena”.

Os alunos ficaram “surpresos” com o volume total de dados agora disponíveis on-line e na dark web. Metropolitansky e Attari disseram que, mesmo com os escândalos de privacidade ocorrendo com frequência quase semanal, o público está subestimando drasticamente o impacto total destes vazamentos na sua privacidade e segurança.

Metropolitansky e Attari também descobriram que, apesar dos avisos repetidos, o público ainda não está usando senhas únicas ou gerenciadores de senhas. Das 96.000 senhas contidas em um dos conjuntos de dados do programa, apenas 26.000 eram únicas. A reutilização de uma mesma senha em vários serviços é a principal porta para invasões e roubo de identidade.

Fonte: Motherboard

Dados ‘anônimos’ não são tão anônimos assim, dizem estudantes de Harvard