Siga o Olhar Digital no Google Discover
A conversão de texto em fala está se tornando cada vez mais eficiente. No entanto, ainda será necessário muito tempo e recursos de treinamento para produzir uma saída com voz natural. Em resposta a isso, pesquisadores da Microsoft e da China podem ter desenvolvido uma maneira mais eficaz para resolver essa questão. Eles criaram uma Inteligência Artificial text-to-speech, que pode gerar uma fala realista usando apenas 200 amostras de voz (cerca de 20 minutos) e transcrições correspondentes.
Ofertas
Por: R$ 8,28
Por: R$ 1.998,89
Por: R$ 2.498,89
Por: R$ 491,92
Por: R$ 129,90
Por: R$ 412,69
Por: R$ 593,00
Por: R$ 3.598,94
Por: R$ 499,00
Por: R$ 369,00
Por: R$ 1.616,02
Por: R$ 179,90
Por: R$ 2.759,00
Por: R$ 199,00
Por: R$ 166,19
Por: R$ 399,00
Por: R$ 132,00
Por: R$ 505,00
O sistema depende em parte de “Transformadores” (ou redes neurais profundas) que imitam os neuônios no cerébro. Os transformadores pesam cada entrada e saída, na hora, como links sinápticos, ajudando-os a processar seqüências demoradas de maneira muito eficiente — uma frase complexa, por exemplo. Combine isso com um componente codificador de remoção de ruído e o AI pode fazer muito com relativamente pouco.
Os resultados não são perfeitos — o som é ligeiramente robótico — mas são altamente precisos, com uma inteligibilidade de 99,84%. Mais importante, isso poderia tornar o texto para fala mais acessível. Você não precisaria gastar muito esforço para obter vozes realistas, colocando-a ao alcance de pequenas empresas e até de usuários amadores. Isso também é um bom presságio para o futuro. Os pesquisadores esperam treinar dados não marcados, de modo que talvez seja necessário ainda menos trabalho para criar um diálogo realista.