Inteligência artificial adivinha o rosto por trás de uma voz

A tecnologia, desenvolvida nos EUA, não acerta sempre, mas ainda assim é impressionante. E dá pano para a manga no debate IA x privacidade
Redação07/06/2019 18h32, atualizada em 07/06/2019 22h10
20190520035515
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Em estudo publicado no Arxiv, um site de publicação de artigos não revisados, pesquisadores do MIT (Instituto de Tecnologia de Massachusetts, em português) criaram uma maneira de reconstruir a aparência — muito grosseiramente — de algumas pessoas com base em um arquivo de áudio curto. O artigo, “Speech2Face: Aprendendo o rosto por trás de uma voz“, explica como um conjunto de dados de milhões de clipes no YouTube foi coletado e, a partir dele, um modelo baseado em rede neural que combina os atributos vocais às informações faciais presentes no vídeos foi criado. Agora, quando o sistema ouve uma amostra de áudio, sua inteligência artificial (IA) tenta adivinhar como seria o rosto do dono da voz.

Ofertas

Monitor Gamer AOC AGON G4S 25" 310Hz 0.3ms HDR10 IPS Base Ajustável 25G4S/P
Vendido por Amazon
Monitor Gamer AOC AGON G4S 25" 310Hz 0.3ms HDR10 IPS Base Ajustável 25G4S/P
Por R$ 1.479,00
Tilibra - Estojo Minibox Happy Lilás
Vendido por Amazon
Tilibra - Estojo Minibox Happy Lilás
De: R$ 38,12
Por: R$ 36,21
Caneta Gel – CiS Gelyx – Estojo com 6 unidades – Glitter
Vendido por Amazon
Caneta Gel – CiS Gelyx – Estojo com 6 unidades – Glitter
De: R$ 30,90
Por: R$ 24,96
Pentel Caneta Izee 4 Cores 1.0 Corpo Branco Tinta Azul Vermelho Verde e Preto SM/BXC470W
Vendido por Amazon
Pentel Caneta Izee 4 Cores 1.0 Corpo Branco Tinta Azul Vermelho Verde e Preto SM/BXC470W
De: R$ 15,32
Por: R$ 9,90
Tilibra - Caderno Brochura Capa Dura 1/4 D+ Rosa 48 Folhas, 317403
Vendido por Amazon
Tilibra - Caderno Brochura Capa Dura 1/4 D+ Rosa 48 Folhas, 317403
De: R$ 11,85
Por: R$ 5,86
Celular Positivo P26 4G Tela 1,8", Câmera traseira, 48MB RAM 128MB, Bluetooth, Modem Tethering - Preto
Vendido por Amazon
Celular Positivo P26 4G Tela 1,8", Câmera traseira, 48MB RAM 128MB, Bluetooth, Modem Tethering - Preto
Por R$ 139,90
Mochila Grande E Reforçada Impermeável Para Notebook Antifurto Bolsa Executiva Masculina Feminina Trabalho Viagem Escolar Faculdade Cabo De Aço Saída Usb Saída Fone De Ouvido
Vendido por Amazon
Mochila Grande E Reforçada Impermeável Para Notebook Antifurto Bolsa Executiva Masculina Feminina Trabalho Viagem Escolar Faculdade Cabo De Aço Saída Usb Saída Fone De Ouvido
De: R$ 149,79
Por: R$ 113,70
Tilibra D+ - Caderno Brochura Capa Dura, 1/4 Pequeno, 14x20cm, 48 Folhas, Vermelho
Vendido por Amazon
Tilibra D+ - Caderno Brochura Capa Dura, 1/4 Pequeno, 14x20cm, 48 Folhas, Vermelho
De: R$ 11,81
Por: R$ 6,90
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
Vendido por Amazon
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
De: R$ 1.049,00
Por: R$ 799,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
De: R$ 499,90
Por: R$ 388,78
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
Vendido por Amazon
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
De: R$ 2.399,00
Por: R$ 2.159,00
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
Vendido por Amazon
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
De: R$ 88,00
Por: R$ 45,00
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
Vendido por Amazon
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
De: R$ 399,00
Por: R$ 379,00
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
Vendido por Amazon
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
De: R$ 1.629,90
Por: R$ 1.239,90
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Vendido por Amazon
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
De: R$ 1.179,00
Por: R$ 943,20
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
Vendido por Amazon
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
De: R$ 999,00
Por: R$ 798,99
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
Vendido por Amazon
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
De: R$ 329,90
Por: R$ 199,00
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
Vendido por Amazon
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
De: R$ 599,90
Por: R$ 476,10
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
Vendido por Amazon
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
De: R$ 1.199,00
Por: R$ 1.139,05
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Vendido por Amazon
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Por R$ 169,90
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
De: R$ 149,90
Por: R$ 119,90
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
Vendido por Amazon
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
De: R$ 699,00
Por: R$ 398,99
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
Vendido por Amazon
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
De: R$ 109,90
Por: R$ 79,90
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
Vendido por Amazon
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
De: R$ 299,90
Por: R$ 222,11

Os cientistas, liderados pelo estudante de pós-doutorado no MIT, Tae-Hyun Oh, reconhecem brevemente as preocupações acerca da privacidade em seu estudo. Eles explicam em uma seção de “Consideração Ética” que o Speech2Face foi treinado para capturar características visuais como gênero e idade, que são comuns, e somente quando houver indícios suficientes que possibilitem a “adivinhação” de um rosto — ou seja, o sistema não é capaz de produzir imagens de pessoas específicas.

Ainda assim, responsáveis pela pesquisa especulam que a inteligência artificial “pode dar suporte a aplicações úteis — como anexar uma face representativa a chamadas telefônicas ou de vídeo, baseando-se na voz do interlocutor apenas”.

Reprodução

Embora as imagens geradas pela tecnologia não sejam de alta qualidade, por vezes elas acertam a faixa etária, a etnia e o gênero da pessoa por trás do áudio analisado. Pesquisas anteriores exploraram métodos para prever idade e sexo a partir da fala, mas neste caso, os pesquisadores afirmam que detectaram também correlações com alguns padrões faciais. “Além dessas características dominantes, nossas reconstruções revelam correlações não negligenciáveis entre características craniofaciais (por exemplo, estrutura do nariz) e voz”, escrevem eles.

No entanto, pessoas com certas características representaram um desafio maior. Na seção de ética, os pesquisadores admitem casos em que atributos como a linguagem ou o tom de voz levaram o modelo a criar associações altamente equivocadas — o que mostra os limites do aprendizado de máquina e da inteligência artificial nesse primeiro momento. Os equívocos também são resultado da natureza limitada dos dados de treinamento, como os pesquisadores reconhecem — o que leva ao problema de viés racial e de gênero nos sistemas de IA.

“Os dados de treinamento que usamos são uma coleção de vídeos educativos do YouTube e não representam igualmente toda a população mundial (…). Portanto, o modelo — como é o caso de qualquer modelo de aprendizado de máquina — é afetado por essa distribuição desigual de dados.” Eles recomendam “que qualquer investigação adicional ou uso prático desta tecnologia seja cuidadosamente testado para garantir que os dados de treinamento representem a população de usuários pretendida”.

Segundo reportagem do Slate, nem todos que faziam parte do conjunto de dados ficaram felizes em se tornar parte involuntária do projeto. Nick Sullivan, pesquisador de tecnologia da Cloudflare, twittou quando ficou sabendo que rosto e voz estavam no estudo — e enfatizou não ter consentido com isso. Fato é que muitos bancos de dados públicos e não públicos de reconhecimento facial dependem de rostos extraídos da web. Por enquanto, coletas de dados desse tipo são protegidas por lei: o conteúdo do YouTube é considerado publicamente disponível e qualquer reivindicação de direitos autorais pode ser contestada com um argumento de uso justo.

A ferramenta não foi lançada, mas podemos conferir seu funcionamento aqui, com a captura de tela do vídeo do YouTube de onde foi tirada, bem como a face gerada.

Não é a primeira vez

Há outros lugares onde nossas vozes já são usadas como dado biométrico, com ou sem o nosso conhecimento. O  banco norte-americano Chase começou a usar a tecnologia chamada “ID de Voz”, no ano passado, para reconhecer os clientes de cartão de crédito assim que entrassem em contato com a instuição via telefone, coletando e armazenando uma amostra de sua voz — a menos que o cliente deixasse claro que não consentia com a prática. 

Outra pesquisa quer que a AI seja capaz de fazer uma análise do sentimento da nossa voz, para identificar nossos gostos. No início desse ano, a Amazon registrou uma patente que, um dia, pode permitir que a Alexa reconheça seu estado emocional e segmente os anúncios com base no seu humor. A companhia de Jeff Bezos disse ao New York Times que não usa gravações de voz para publicidade direcionada. Naturalmente, isso não significa que a empresa não o fará no futuro.

 

(Via Fast Company/Slate)

Redator(a)

Redação é redator(a) no Olhar Digital