Precisamos falar sobre big data

O Big Data sem a devida supervisão humana pode resultar em análises cujos resultados são comprometidos de forma catastrófica.
Redação05/11/2018 23h20, atualizada em 05/11/2018 23h45
20131213191815
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

A capacidade de prever o futuro é um desejo que sempre permeou a humanidade. É por isso que a fé em modalidades milenares de divinação persiste até os dias de hoje — astrologia, quiromancia (leitura de mãos) e clarividência são alguns exemplos.

Ofertas

Material Dourado Com 74 Peças Pais & Filhos Dourado
Vendido por Amazon
Material Dourado Com 74 Peças Pais & Filhos Dourado
De: R$ 11,85
Por: R$ 8,28
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
Vendido por Amazon
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
De: R$ 2.499,00
Por: R$ 1.998,89
Freezer Vertical Consul 231 Litros - CVU26FB 110V
Vendido por Amazon
Freezer Vertical Consul 231 Litros - CVU26FB 110V
De: R$ 3.279,35
Por: R$ 2.498,89
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
Vendido por Amazon
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
De: R$ 599,90
Por: R$ 491,92
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
Vendido por Amazon
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
De: R$ 189,90
Por: R$ 129,90
Climatizador de Ar Digital Midea 127V 60Hz
Vendido por Amazon
Climatizador de Ar Digital Midea 127V 60Hz
De: R$ 529,99
Por: R$ 412,69
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
Vendido por Amazon
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
De: R$ 799,00
Por: R$ 593,00
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
Vendido por Amazon
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
De: R$ 3.799,00
Por: R$ 3.598,94
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
Vendido por Amazon
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
De: R$ 699,00
Por: R$ 499,00
PlayStation DualSense Controle sem fio – Branco
Vendido por Amazon
PlayStation DualSense Controle sem fio – Branco
De: R$ 499,90
Por: R$ 369,00
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
Vendido por Amazon
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
De: R$ 2.489,00
Por: R$ 1.616,02
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Vendido por Amazon
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
De: R$ 259,90
Por: R$ 179,90
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
Vendido por Amazon
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
De: R$ 3.599,00
Por: R$ 2.759,00
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
Vendido por Amazon
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
De: R$ 299,90
Por: R$ 199,00
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
Vendido por Amazon
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
De: R$ 899,90
Por: R$ 399,00
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
Vendido por Amazon
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
De: R$ 229,90
Por: R$ 132,00
CAMERA INSTAX MINI 12 ROSA GLOSS
Vendido por Amazon
CAMERA INSTAX MINI 12 ROSA GLOSS
De: R$ 649,00
Por: R$ 505,00

Na ficção científica, que frequentemente inspira a realidade, meu exemplo favorito é nascido nos anos 40, da imaginação do escritor Isaac Asimov: a “psico-história”. Seria um ramo científico baseado na combinação de história, sociologia e estatística para fazer previsões em larga escala. Em sua trilogia Fundação, a psico-história era aplicada sobre toda a humanidade, prevendo com décadas e até séculos de antecedência os grandes eventos capazes de influenciar o rumo da civilização.

Hoje, mais de 70 anos depois, boa parte das empresas se dedicam a uma proposta muito semelhante, ainda que em escala menor: entender o comportamento de seus clientes. Embora a estatística seja um ponto em comum com a psico-história, no mundo real a sociologia e a história dão lugar ao insumo mais importante dessa ciência: os dados.

Com o advento das redes sociais e a popularização dos celulares, tudo o que fazemos em sociedade é registrado. Desde informações mais óbvias, como amizades, fotos e preferências pessoais que escolhemos compartilhar em redes sociais, até outras menos claras, como nossa navegação pela internet, os lugares por onde passamos com o GPS ativado e as compras que fazemos, tudo é registrado em algum banco de dados. A essa abundância de informações armazenadas e catalogadas se dá o nome de big data.

Munidos de big data e inteligência artificial, cientistas de dados podem entender melhor padrões de comportamento, fazer ofertas personalizadas, prever volume de vendas, identificar fraudes e muito mais. E fazem isso com imenso sucesso: segundo o pesquisador Pedro Domingos, da Universidade de Washington, sugestões de sistemas de recomendação baseados nessas tecnologias são responsáveis por um terço de todas as vendas da Amazon e três quartos das escolhas feitas na Netflix.

Esse poder acompanha um grande risco. Falsos negativos e falsos positivos, por exemplo, são um problema sério de qualquer tipo de teste que separa as pessoas em duas categorias, automatizado ou não. Na área médica, por exemplo, representam respectivamente um paciente doente incorretamente diagnosticado como sadio e vice-versa. Os evidentes problemas que decorrem disso na medicina frequentemente exigem que testes clínicos sejam repetidos mais de uma vez para minimizar a chance de erro.

Porém, quando quem erra são máquinas sem supervisão humana, nem sempre esses casos são corretamente identificados, e algoritmos inflexíveis significam que repetir o teste não mitiga o erro. Em áreas como detecção de fraudes ou concessão de crédito, os resultados podem ser trágicos. No livro Automating Inequality (Automatizando a Desigualdade, em tradução livre), a pesquisadora Virginia Eubanks, da Universidade de Albany, registra diversos casos do tipo nos Estados Unidos, e investiga o impacto de ferramentas da era de big data sobre a população mais pobre.

Outro risco associado a sistemas de inteligência artificial é a expectativa de que sejam “infalíveis”, ou pelo menos “mais imparciais” que seres humanos. Só quem trabalha na área conhece a máxima “garbage in, garbage out” (entra lixo, sai lixo, em tradução livre). Isso essencialmente quer dizer que um algoritmo treinado a partir de dados que têm um viés vão necessariamente repetir esse mesmo viés.

É o caso de algoritmos treinados para calcular a chance de reincidência criminal, aplicados a presos estadunidenses, que apresentam claro viés racial, levando a erros crassos. Isso pode ser atribuído ao encarceramento proporcionalmente muito maior da população negra nos Estados Unidos. Ou seja: o programa sistematicamente conclui que pessoas negras têm maior chance de reincidir simplesmente porque aprende que pessoas negras historicamente são presas com maior frequência. O curioso é que o algoritmo não usa explicitamente a etnia do indivíduo em consideração — mas dada a forte correlação no país entre etnia, poder aquisitivo, acesso à educação etc., ainda é facilmente possível chegar a esses resultados.

Além de todos os riscos da inteligência artificial, muitas vezes um problema ainda maior acontece um passo antes: quando precauções com segurança no armazenamento de grandes volumes de dados não são tomadas. O resultado são os vazamentos de dados que frequentemente têm atraído a atenção da mídia. A companhia de segurança digital Gemalto estima que, desde 2013, mais de 13 bilhões de entradas vazaram de bancos de dados ao redor do mundo. Praticamente um quarto desse número se deve apenas a ocorrências durante a primeira metade de 2018, o que representa mais de 18 milhões de entradas vazadas por dia.

Os riscos desses vazamentos são imensos: indivíduos de moralidade ambígua são capazes de utilizar grandes volumes de dados obtidos ilicitamente até para influenciar o resultado de votações. Isto se tornou abundantemente claro na atuação da empresa Cambridge Analytica nas eleições norte-americanas e no referendo do Brexit. Nas eleições presidenciais do Brasil, um candidato também foi recentemente acusado de se beneficiar de estratégias similares.

As aparentes dificuldades de cientistas de dados com questões éticas e de segurança existem porque este é um campo relativamente novo, que evoluiu muito rapidamente e não tem um suporte tão estruturado de universidades e outras instituições de ensino. Programas nessa área, quando existem, não costumam abordar segurança e ética diretamente. Por exemplo, cursos de bancos de dados sempre ensinam SQL (structured query language), uma linguagem ubíqua para a área, mas poucos abordam injeções de SQL, um dos tipos de ataque mais frequentes a bancos de dados. Quando o fazem, é por via de princípios gerais, desconexos de problemas reais em ciência de dados ou inteligência artificial.

Por todo o mundo, medidas já começaram a ser tomadas para garantir a segurança do público. No Brasil, a principal é a Lei Geral de Proteção aos Dados, feita aos moldes da lei europeia similar (GDPR, na sigla em inglês). Ambas tentam garantir, por exemplo, o direito dos cidadãos de terem seus dados apagados do sistema de qualquer empresa a qualquer momento. Outra questão assegurada é a portabilidade — que daria o direito de exigir, por exemplo, que ao trocar de plano de saúde, o seu histórico médico fosse enviado para a nova empresa e apagado do sistema da primeira.

Do ponto de vista educacional, precisamos criar mais recursos para suprir a demanda de profissionais de dados, e garantir a presença de disciplinas de ética e segurança nas ementas. Empresas podem apoiar seus funcionários, oferecendo cursos e treinamentos. Para quem já atua nessa área, é essencial identificar e suprir essas deficiências rapidamente. Por sorte, esses profissionais já estão habituados a estudar por conta própria, então talvez seja apenas uma questão de conscientização.

É certo que, como em qualquer problema desse porte, a solução não será simples nem rápida. Mas se a enorme onda de vazamentos de dados teve um lado positivo, foi aquecer o debate em todas as esferas. Mesmo que um consenso demore a surgir, as questões mais importantes já começaram a ser levantadas — agora resta esperar que, em meio a tantos dados, consigamos encontrar boas respostas.

Redator(a)

Redação é redator(a) no Olhar Digital