Inteligência artificial adivinha o rosto por trás de uma voz

A tecnologia, desenvolvida nos EUA, não acerta sempre, mas ainda assim é impressionante. E dá pano para a manga no debate IA x privacidade
Redação07/06/2019 18h32, atualizada em 07/06/2019 22h10
20190520035515
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Em estudo publicado no Arxiv, um site de publicação de artigos não revisados, pesquisadores do MIT (Instituto de Tecnologia de Massachusetts, em português) criaram uma maneira de reconstruir a aparência — muito grosseiramente — de algumas pessoas com base em um arquivo de áudio curto. O artigo, “Speech2Face: Aprendendo o rosto por trás de uma voz“, explica como um conjunto de dados de milhões de clipes no YouTube foi coletado e, a partir dele, um modelo baseado em rede neural que combina os atributos vocais às informações faciais presentes no vídeos foi criado. Agora, quando o sistema ouve uma amostra de áudio, sua inteligência artificial (IA) tenta adivinhar como seria o rosto do dono da voz.

Ofertas

Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores fundo branco e roxo
Vendido por Amazon
Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores fundo branco e roxo
De: R$ 30,90
Por: R$ 27,81
Steal n Catch Memerot: Funny Meme Shooter Battle Game
Vendido por Amazon
Steal n Catch Memerot: Funny Meme Shooter Battle Game
Por R$ 53,49
meu jogo de pizza dos sonhos pronto: simulador divertido de cozinhar, assar e fazer comida
Vendido por Amazon
meu jogo de pizza dos sonhos pronto: simulador divertido de cozinhar, assar e fazer comida
Por R$ 21,79
Caderneta s Pastel, Cicero, 6726, Azul, Médio (14X21)
Vendido por Amazon
Caderneta s Pastel, Cicero, 6726, Azul, Médio (14X21)
De: R$ 79,99
Por: R$ 50,10
Tilibra - Estojo Triplo Grande Académie Azul
Vendido por Amazon
Tilibra - Estojo Triplo Grande Académie Azul
De: R$ 110,90
Por: R$ 67,95
Giz Pastel Oleoso Pentel Arts 12 Cores
Vendido por Amazon
Giz Pastel Oleoso Pentel Arts 12 Cores
De: R$ 17,90
Por: R$ 10,90
GoPro Max 360 - Câmera de Ação à Prova d'água, Vídeo 360 5.6K, Reenquadramento 4K, Foto 360, GPS, Live 1080p, Max HyperSmooth, TimeWarp, Trava de horizonte, Capturas com bastão invisível
Vendido por Amazon
GoPro Max 360 - Câmera de Ação à Prova d'água, Vídeo 360 5.6K, Reenquadramento 4K, Foto 360, GPS, Live 1080p, Max HyperSmooth, TimeWarp, Trava de horizonte, Capturas com bastão invisível
De: R$ 2.699,00
Por: R$ 2.069,90
Carregador de Pilhas AA/AAA com 2 Pilhas AA 2500mAh e 2 Pilhas AAA 1000mAh, Multilaser - CB045
Vendido por Amazon
Carregador de Pilhas AA/AAA com 2 Pilhas AA 2500mAh e 2 Pilhas AAA 1000mAh, Multilaser - CB045
De: R$ 89,90
Por: R$ 56,60
Adaptador Wireless TP-Link Archer T2U Nano USB
Vendido por Amazon
Adaptador Wireless TP-Link Archer T2U Nano USB
De: R$ 109,90
Por: R$ 75,85
SMS - NOBREAK LITE 600 - POTÊNCIA 600VA | 300W - BIVOLT ENT.: 115/ 220V | SAÍDA: 115V - 4 TOMADAS - SENOIDAL P/APROX. - LINE INTERACTIVE - PN 29202
Vendido por Amazon
SMS - NOBREAK LITE 600 - POTÊNCIA 600VA | 300W - BIVOLT ENT.: 115/ 220V | SAÍDA: 115V - 4 TOMADAS - SENOIDAL P/APROX. - LINE INTERACTIVE - PN 29202
De: R$ 616,58
Por: R$ 334,32
Película Para Kindle 11ª Geração 2024 e 2022 (RS23CV e C2V2L3) 6" Polegadas - Antirreflexo - Fosca – FD Acessórios
Vendido por Amazon
Película Para Kindle 11ª Geração 2024 e 2022 (RS23CV e C2V2L3) 6" Polegadas - Antirreflexo - Fosca – FD Acessórios
De: R$ 33,90
Por: R$ 23,83
Drone DJI Air 3S Fly More Combo (Com tela) BR - DJI056
Vendido por Amazon
Drone DJI Air 3S Fly More Combo (Com tela) BR - DJI056
Por R$ 17.180,00
PHILIPS, Fone de Ouvido Sem Fio TWS, TAT2500BK/00, Bluetooth, Com Cancelamento de Ruído Ativo ANC, Com Microfone, Até 24 horas de bateria, iPX4, Preto
Vendido por Amazon
PHILIPS, Fone de Ouvido Sem Fio TWS, TAT2500BK/00, Bluetooth, Com Cancelamento de Ruído Ativo ANC, Com Microfone, Até 24 horas de bateria, iPX4, Preto
De: R$ 156,00
Por: R$ 140,00
Microfone USB Gaming PC, Microfone RGB para PC/Notebook, Mic with Boom Arm, Microphone Condensador de mesa/Braço, Live, Podcast, Gravação de Audio, Karaoke, Gamer Youtuber DJ
Vendido por Amazon
Microfone USB Gaming PC, Microfone RGB para PC/Notebook, Mic with Boom Arm, Microphone Condensador de mesa/Braço, Live, Podcast, Gravação de Audio, Karaoke, Gamer Youtuber DJ
De: R$ 199,99
Por: R$ 178,49
Relógio Inteligente Smartwatch Feminino Masculino, com Tela AMOLED, AI ChatGPT, Chamadas Bluetooth, 150+ Monitoramento Esportivo, Chamadas Bluetooth,Relogio smartwatch iphone
Vendido por Amazon
Relógio Inteligente Smartwatch Feminino Masculino, com Tela AMOLED, AI ChatGPT, Chamadas Bluetooth, 150+ Monitoramento Esportivo, Chamadas Bluetooth,Relogio smartwatch iphone
Por R$ 299,99
soundcore Q11i da Anker Fone De Ouvido Bluetooth 5.3, Fone Gamer, Headphone Bluetooth Over-Ear, Graves Profundos, 60H Autonomia, Hi-Res Áudio, Almofadas Removíveis, Conexão Multiponto, Preto
Vendido por Amazon
soundcore Q11i da Anker Fone De Ouvido Bluetooth 5.3, Fone Gamer, Headphone Bluetooth Over-Ear, Graves Profundos, 60H Autonomia, Hi-Res Áudio, Almofadas Removíveis, Conexão Multiponto, Preto
De: R$ 259,35
Por: R$ 198,99
Bundle Nintendo Switch + Super Mario Bros. Wonder + 3 Meses de Assinatura Nintendo Switch Online
Vendido por Amazon
Bundle Nintendo Switch + Super Mario Bros. Wonder + 3 Meses de Assinatura Nintendo Switch Online
Por R$ 2.399,00
Notebook ASUS TUF Gaming A15, RTX 3050, AMD RYZEN 7, 8 GB, 512 GB SSD, KeepOS, Tela 15.6'' FHD, Graphite Black - FA506NCR-HN089
Vendido por Amazon
Notebook ASUS TUF Gaming A15, RTX 3050, AMD RYZEN 7, 8 GB, 512 GB SSD, KeepOS, Tela 15.6'' FHD, Graphite Black - FA506NCR-HN089
De: R$ 5.299,00
Por: R$ 3.999,00
Havit Headphone Fone de Ouvido H2002d Pink, Gamer, com Microfone, Falante 53mm, Plug 3, 5mm: compatível com XBOX ONE e PS4, HAVIT, HV-H2002d Cor Rosa
Vendido por Amazon
Havit Headphone Fone de Ouvido H2002d Pink, Gamer, com Microfone, Falante 53mm, Plug 3, 5mm: compatível com XBOX ONE e PS4, HAVIT, HV-H2002d Cor Rosa
De: R$ 229,00
Por: R$ 160,65
Roku Streaming Stick HD 2025 | Dispositivo de streaming para TV HD/FHD com controle remoto por comando de voz compatível com Alexa, Siri e Google
Vendido por Amazon
Roku Streaming Stick HD 2025 | Dispositivo de streaming para TV HD/FHD com controle remoto por comando de voz compatível com Alexa, Siri e Google
De: R$ 289,90
Por: R$ 187,00
EMEET Webcam 4K, webcam S600 com tripé, 2 microfones de redução de ruído, FOV ajustável de 40° a 73°, foco automático PDAF, capa de privacidade integrada, câmera de streaming para jogos, chamadas de
Vendido por Amazon
EMEET Webcam 4K, webcam S600 com tripé, 2 microfones de redução de ruído, FOV ajustável de 40° a 73°, foco automático PDAF, capa de privacidade integrada, câmera de streaming para jogos, chamadas de
Por R$ 419,99
soundcore P30i by Anker, Fones de Ouvido com Cancelamento de Ruído, Graves Poderosos, 45H de Reprodução, Estojo 2-em-1 com Suporte para Celular, IP54, Bluetooth 5.4, Fones Sem Fio
Vendido por Amazon
soundcore P30i by Anker, Fones de Ouvido com Cancelamento de Ruído, Graves Poderosos, 45H de Reprodução, Estojo 2-em-1 com Suporte para Celular, IP54, Bluetooth 5.4, Fones Sem Fio
De: R$ 369,00
Por: R$ 209,90
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
HD Externo Toshiba 1TB Canvio Basics Preto HDTB510XK3AA
Vendido por Amazon
HD Externo Toshiba 1TB Canvio Basics Preto HDTB510XK3AA
De: R$ 464,65
Por: R$ 330,00

Os cientistas, liderados pelo estudante de pós-doutorado no MIT, Tae-Hyun Oh, reconhecem brevemente as preocupações acerca da privacidade em seu estudo. Eles explicam em uma seção de “Consideração Ética” que o Speech2Face foi treinado para capturar características visuais como gênero e idade, que são comuns, e somente quando houver indícios suficientes que possibilitem a “adivinhação” de um rosto — ou seja, o sistema não é capaz de produzir imagens de pessoas específicas.

Ainda assim, responsáveis pela pesquisa especulam que a inteligência artificial “pode dar suporte a aplicações úteis — como anexar uma face representativa a chamadas telefônicas ou de vídeo, baseando-se na voz do interlocutor apenas”.

Reprodução

Embora as imagens geradas pela tecnologia não sejam de alta qualidade, por vezes elas acertam a faixa etária, a etnia e o gênero da pessoa por trás do áudio analisado. Pesquisas anteriores exploraram métodos para prever idade e sexo a partir da fala, mas neste caso, os pesquisadores afirmam que detectaram também correlações com alguns padrões faciais. “Além dessas características dominantes, nossas reconstruções revelam correlações não negligenciáveis entre características craniofaciais (por exemplo, estrutura do nariz) e voz”, escrevem eles.

No entanto, pessoas com certas características representaram um desafio maior. Na seção de ética, os pesquisadores admitem casos em que atributos como a linguagem ou o tom de voz levaram o modelo a criar associações altamente equivocadas — o que mostra os limites do aprendizado de máquina e da inteligência artificial nesse primeiro momento. Os equívocos também são resultado da natureza limitada dos dados de treinamento, como os pesquisadores reconhecem — o que leva ao problema de viés racial e de gênero nos sistemas de IA.

“Os dados de treinamento que usamos são uma coleção de vídeos educativos do YouTube e não representam igualmente toda a população mundial (…). Portanto, o modelo — como é o caso de qualquer modelo de aprendizado de máquina — é afetado por essa distribuição desigual de dados.” Eles recomendam “que qualquer investigação adicional ou uso prático desta tecnologia seja cuidadosamente testado para garantir que os dados de treinamento representem a população de usuários pretendida”.

Segundo reportagem do Slate, nem todos que faziam parte do conjunto de dados ficaram felizes em se tornar parte involuntária do projeto. Nick Sullivan, pesquisador de tecnologia da Cloudflare, twittou quando ficou sabendo que rosto e voz estavam no estudo — e enfatizou não ter consentido com isso. Fato é que muitos bancos de dados públicos e não públicos de reconhecimento facial dependem de rostos extraídos da web. Por enquanto, coletas de dados desse tipo são protegidas por lei: o conteúdo do YouTube é considerado publicamente disponível e qualquer reivindicação de direitos autorais pode ser contestada com um argumento de uso justo.

A ferramenta não foi lançada, mas podemos conferir seu funcionamento aqui, com a captura de tela do vídeo do YouTube de onde foi tirada, bem como a face gerada.

Não é a primeira vez

Há outros lugares onde nossas vozes já são usadas como dado biométrico, com ou sem o nosso conhecimento. O  banco norte-americano Chase começou a usar a tecnologia chamada “ID de Voz”, no ano passado, para reconhecer os clientes de cartão de crédito assim que entrassem em contato com a instuição via telefone, coletando e armazenando uma amostra de sua voz — a menos que o cliente deixasse claro que não consentia com a prática. 

Outra pesquisa quer que a AI seja capaz de fazer uma análise do sentimento da nossa voz, para identificar nossos gostos. No início desse ano, a Amazon registrou uma patente que, um dia, pode permitir que a Alexa reconheça seu estado emocional e segmente os anúncios com base no seu humor. A companhia de Jeff Bezos disse ao New York Times que não usa gravações de voz para publicidade direcionada. Naturalmente, isso não significa que a empresa não o fará no futuro.

 

(Via Fast Company/Slate)

Redator(a)

Redação é redator(a) no Olhar Digital