Qual a origem de vozes utilizadas em modelos de inteligência artificial?

Vozes de inteligências artificiais são fruto de um imenso banco de dados e já é possível replicar vozes humanas e até mesmo sua entonações
Por Danilo Oliveira, editado por Bruno Ignacio de Lima 22/07/2023 09h20, atualizada em 07/08/2023 12h48
Ilustração de inteligência artificial falando
Imagem: ArtemisDiana/Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Inteligências artificiais são um dos temas mais debatidos da atualidade e vêm sendo cada vez mais impressionante o poder que certas plataformas possuem e o que conseguem fazer, já sendo uma tecnologia extremamente popular. Entre elas, as vozes de inteligências artificiais geram fascínio, mas também uma dúvida: como essas vozes são geradas, clonadas e até mesmo imitam de fato tons e expressões humanas?

Ofertas

Microsoft Xbox Wireless Controller Storm Breaker Special Edition - Wireless & Bluetooth Connectivity - New Hybrid D-Pad - New Share Button - Featuring Textured Grip
Vendido por Amazon
Microsoft Xbox Wireless Controller Storm Breaker Special Edition - Wireless & Bluetooth Connectivity - New Hybrid D-Pad - New Share Button - Featuring Textured Grip
De: R$ 599,00
Por: R$ 549,00
Carregador Portátil (Power Bank) 20000Mah Turbo 22.5w Carregamento Ultra Rápido PD Visor Led com 2 Saídas Compatível com Android e IOS (Preto)
Vendido por Amazon
Carregador Portátil (Power Bank) 20000Mah Turbo 22.5w Carregamento Ultra Rápido PD Visor Led com 2 Saídas Compatível com Android e IOS (Preto)
Por R$ 89,49
Lata EcoLápis Grip 24 Cores, Faber-Castell, 121024LT, Grafite
Vendido por Amazon
Lata EcoLápis Grip 24 Cores, Faber-Castell, 121024LT, Grafite
De: R$ 63,00
Por: R$ 49,90
Controle sem fio Microsoft Xbox - Edição Especial Heart Breaker [android,ios,windows,xbox_one,xbox_series_s,xbox_series_x]
Vendido por Amazon
Controle sem fio Microsoft Xbox - Edição Especial Heart Breaker [android,ios,windows,xbox_one,xbox_series_s,xbox_series_x]
De: R$ 599,00
Por: R$ 549,00
Havit Mouse Gamer Tri-Mode MS966SE Black, Sem Fio e Com Fio, USB, Bluetooth, Wireless 2.4GHz, RGB, 7 Botões, 800-1600-2400-3200-600-10000 DPI, Preto
Vendido por Amazon
Havit Mouse Gamer Tri-Mode MS966SE Black, Sem Fio e Com Fio, USB, Bluetooth, Wireless 2.4GHz, RGB, 7 Botões, 800-1600-2400-3200-600-10000 DPI, Preto
Por R$ 137,00
Kit Roteador Mesh Wi-Fi 6 Gigabit AX3000 - Deco X50(2-pack)(US)
Vendido por Amazon
Kit Roteador Mesh Wi-Fi 6 Gigabit AX3000 - Deco X50(2-pack)(US)
De: R$ 1.156,80
Por: R$ 727,20
Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores fundo branco e roxo
Vendido por Amazon
Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores fundo branco e roxo
De: R$ 30,90
Por: R$ 27,81
Caderneta s Pastel, Cicero, 6726, Azul, Médio (14X21)
Vendido por Amazon
Caderneta s Pastel, Cicero, 6726, Azul, Médio (14X21)
De: R$ 79,99
Por: R$ 50,10
Drone DJI Air 3S Fly More Combo (Com tela) BR - DJI056
Vendido por Amazon
Drone DJI Air 3S Fly More Combo (Com tela) BR - DJI056
Por R$ 17.179,99
PHILIPS, Fone de Ouvido Sem Fio TWS, TAT2500BK/00, Bluetooth, Com Cancelamento de Ruído Ativo ANC, Com Microfone, Até 24 horas de bateria, iPX4, Preto
Vendido por Amazon
PHILIPS, Fone de Ouvido Sem Fio TWS, TAT2500BK/00, Bluetooth, Com Cancelamento de Ruído Ativo ANC, Com Microfone, Até 24 horas de bateria, iPX4, Preto
De: R$ 156,00
Por: R$ 140,00
Microfone USB Gaming PC, Microfone RGB para PC/Notebook, Mic with Boom Arm, Microphone Condensador de mesa/Braço, Live, Podcast, Gravação de Audio, Karaoke, Gamer Youtuber DJ
Vendido por Amazon
Microfone USB Gaming PC, Microfone RGB para PC/Notebook, Mic with Boom Arm, Microphone Condensador de mesa/Braço, Live, Podcast, Gravação de Audio, Karaoke, Gamer Youtuber DJ
De: R$ 199,99
Por: R$ 178,49
Relógio Inteligente Smartwatch Feminino Masculino, com Tela AMOLED, AI ChatGPT, Chamadas Bluetooth, 150+ Monitoramento Esportivo, Chamadas Bluetooth,Relogio smartwatch iphone
Vendido por Amazon
Relógio Inteligente Smartwatch Feminino Masculino, com Tela AMOLED, AI ChatGPT, Chamadas Bluetooth, 150+ Monitoramento Esportivo, Chamadas Bluetooth,Relogio smartwatch iphone
De: R$ 299,99
Por: R$ 204,99
soundcore Q11i da Anker Fone De Ouvido Bluetooth 5.3, Fone Gamer, Headphone Bluetooth Over-Ear, Graves Profundos, 60H Autonomia, Hi-Res Áudio, Almofadas Removíveis, Conexão Multiponto, Preto
Vendido por Amazon
soundcore Q11i da Anker Fone De Ouvido Bluetooth 5.3, Fone Gamer, Headphone Bluetooth Over-Ear, Graves Profundos, 60H Autonomia, Hi-Res Áudio, Almofadas Removíveis, Conexão Multiponto, Preto
De: R$ 259,35
Por: R$ 198,99
Bundle Nintendo Switch + Super Mario Bros. Wonder + 3 Meses de Assinatura Nintendo Switch Online
Vendido por Amazon
Bundle Nintendo Switch + Super Mario Bros. Wonder + 3 Meses de Assinatura Nintendo Switch Online
Por R$ 2.399,00
Notebook ASUS TUF Gaming A15, RTX 3050, AMD RYZEN 7, 8 GB, 512 GB SSD, KeepOS, Tela 15.6'' FHD, Graphite Black - FA506NCR-HN089
Vendido por Amazon
Notebook ASUS TUF Gaming A15, RTX 3050, AMD RYZEN 7, 8 GB, 512 GB SSD, KeepOS, Tela 15.6'' FHD, Graphite Black - FA506NCR-HN089
De: R$ 5.299,00
Por: R$ 4.299,00
Havit Headphone Fone de Ouvido H2002d Pink, Gamer, com Microfone, Falante 53mm, Plug 3, 5mm: compatível com XBOX ONE e PS4, HAVIT, HV-H2002d Cor Rosa
Vendido por Amazon
Havit Headphone Fone de Ouvido H2002d Pink, Gamer, com Microfone, Falante 53mm, Plug 3, 5mm: compatível com XBOX ONE e PS4, HAVIT, HV-H2002d Cor Rosa
De: R$ 229,00
Por: R$ 160,65
Roku Streaming Stick HD 2025 | Dispositivo de streaming para TV HD/FHD com controle remoto por comando de voz compatível com Alexa, Siri e Google
Vendido por Amazon
Roku Streaming Stick HD 2025 | Dispositivo de streaming para TV HD/FHD com controle remoto por comando de voz compatível com Alexa, Siri e Google
De: R$ 289,90
Por: R$ 187,00
EMEET Webcam 4K, webcam S600 com tripé, 2 microfones de redução de ruído, FOV ajustável de 40° a 73°, foco automático PDAF, capa de privacidade integrada, câmera de streaming para jogos, chamadas de
Vendido por Amazon
EMEET Webcam 4K, webcam S600 com tripé, 2 microfones de redução de ruído, FOV ajustável de 40° a 73°, foco automático PDAF, capa de privacidade integrada, câmera de streaming para jogos, chamadas de
Por R$ 419,99
soundcore P30i by Anker, Fones de Ouvido com Cancelamento de Ruído, Graves Poderosos, 45H de Reprodução, Estojo 2-em-1 com Suporte para Celular, IP54, Bluetooth 5.4, Fones Sem Fio
Vendido por Amazon
soundcore P30i by Anker, Fones de Ouvido com Cancelamento de Ruído, Graves Poderosos, 45H de Reprodução, Estojo 2-em-1 com Suporte para Celular, IP54, Bluetooth 5.4, Fones Sem Fio
De: R$ 369,00
Por: R$ 209,90
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
HD Externo Toshiba 1TB Canvio Basics Preto HDTB510XK3AA
Vendido por Amazon
HD Externo Toshiba 1TB Canvio Basics Preto HDTB510XK3AA
Por R$ 449,00

Leia também:

As vozes de inteligências artificiais são fruto de avançadas Redes Neurais criadas através da metodologia de aprendizado profundo, permitindo a criação artificial de vozes que capturam os padrões básicos da fala humana. O processo envolve a análise de vastas quantidades de dados, incluindo incontáveis horas de áudios de falas humanas, para identificar as características vocais que definem como as pessoas falam. Através de treinamento detalhado e análise aprofundada, as Redes Neurais se desenvolveram a ponto de reproduzir as sutilezas e entonações da fala com notável precisão.

O funcionamento é simples: ao inserir um texto a ser falado, a IA o processa e o combina com um banco de dados previamente mencionado, contendo comportamentos de fala, para gerar o áudio de saída correspondente.

À medida que mais dados são fornecidos à IA, o algoritmo se aprimora e se torna mais habilidoso na reprodução realista da fala. Por isso se torna tão comum e aparentemente simples, literalmente clonar vozes de cantores e atores famosos, uma vez que já existe incontáveis horas de conteúdo de voz dessas pessoas, devido a sua exposição.

Ainda que exista um banco de dados complexo criado, a sutileza das entonações de voz humana em determinados momentos ainda não é replicado de forma 100% natural pelas vozes de inteligência artificial.

As vozes em português

Uma vez que essas vozes de inteligência artificial são geradas por banco de dados, é natural que o acervo disponível em inglês seja consideravelmente vasto, tendo em mente a quantidade de conteúdo que existe no idioma. Em contrapartida, línguas menos faladas no mundo tendem a possuir menos investimento de pesquisa e menos recursos a serem explorados, como o português.

Imagem: faithie/Shutterstock

Porém, pesquisadores do renomado Centro de Inteligência Artificial da USP (C4AI) alcançaram uma conquista significativa. Introduzindo o CORAA (Corpus of Annotated Áudios) ASR, o primeiro banco de áudios em português brasileiro voltado para o reconhecimento e síntese automáticos de falas espontâneas, como entrevistas, conversas e declarações informais.

A criação do banco, resultado da colaboração entre várias universidades. Embora os pesquisadores envolvidos sejam todos brasileiros, a base da pesquisa foi embasada em modelos internacionais de inteligência artificial.

A pesquisa em desenvolvimento ocorreu no Centro de Inteligência Artificial da USP, em São Carlos, onde mais de 60 bolsistas participaram ativamente do projeto, catalogando e analisando vozes. Essas vozes já existiam em bases de estudos linguísticos prévios e foram adaptadas para serem utilizadas em tarefas computacionais, como o reconhecimento de fala.

O acervo de áudios abrangeu diversas fontes, incluindo o Museu da Pessoa, além de outras bases de áudios de centros de estudos localizados em diferentes estados do Brasil. No entanto, ressalta-se que, atualmente, o material é utilizado exclusivamente para fins acadêmicos, mas existe a possibilidade de disponibilização futura por empresas do mercado de trabalho que adotam software livre, isto é, aqueles que não visam fins comerciais.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Danilo Oliveira
Colaboração para o Olhar Digital

Danilo Oliveira é jornalista formado pela Universidade Cruzeiro do Sul, amante de jogos, quadrinhos e Puroresu. Atualmente é colaborador do Olhar Digital, podcaster e diretor de comunicação.

Bruno Ignacio de Lima
Colaboração para o Olhar Digital

Bruno Ignacio é jornalista formado pela Faculdade Cásper Líbero. Com 10 anos de experiência, é especialista na cobertura de tecnologia e conteúdo perene. Atualmente, é colaborador no Olhar Digital.