Inteligência Artificial da Microsoft consegue construir um discurso realista com pouco treinamento

Tudo sobre Inteligência Artificial

A conversão de texto em fala está se tornando cada vez mais eficiente. No entanto, ainda será necessário muito tempo e recursos de treinamento para produzir uma saída com voz natural. Em resposta a isso, pesquisadores da Microsoft e da China podem ter desenvolvido uma maneira mais eficaz para resolver essa questão. Eles criaram uma Inteligência Artificial text-to-speech, que pode gerar uma fala realista usando apenas 200 amostras de voz (cerca de 20 minutos) e transcrições correspondentes.

Ofertas

Vendido por Amazon

Samsung Smart TV 75" Crystal UHD 4K U8100F 2025

De: R$ 5.299,99
Por: R$ 4.519,90

Vendido por Amazon

Notebook Dell Inspiron I15-I1300-A60P 15.6" Full HD 13ª Gen Intel Core i5 16GB 1TB SSD Win 11 Preto Carbono

Por R$ 3.955,69

Vendido por Amazon

Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS

De: R$ 4.699,00
Por: R$ 3.099,00

Vendido por Amazon

eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais

De: R$ 3.499,00
Por: R$ 3.324,00

Vendido por Amazon

eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais

De: R$ 849,00
Por: R$ 799,00

Vendido por Amazon

Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)

De: R$ 299,00
Por: R$ 241,44

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite

De: R$ 499,90
Por: R$ 388,78

Vendido por Amazon

eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal

De: R$ 2.399,00
Por: R$ 2.159,00

Vendido por Amazon

soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios

De: R$ 339,00
Por: R$ 188,99

Vendido por Amazon

WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas

De: R$ 88,00
Por: R$ 45,00

Vendido por Amazon

Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais

De: R$ 399,00
Por: R$ 379,00

Vendido por Amazon

Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza

De: R$ 1.629,90
Por: R$ 1.239,90

Vendido por Amazon

ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens

De: R$ 1.179,00
Por: R$ 943,20

Vendido por Amazon

eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3

De: R$ 999,00
Por: R$ 798,99

Vendido por Amazon

WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria

De: R$ 329,90
Por: R$ 199,00

Vendido por Amazon

WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS

De: R$ 599,90
Por: R$ 476,10

Vendido por Amazon

Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco

De: R$ 1.199,00
Por: R$ 1.139,05

Vendido por Amazon

Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica

De: R$ 1.199,00
Por: R$ 949,00

Vendido por Amazon

Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa

De: R$ 169,90
Por: R$ 155,44

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2

De: R$ 149,90
Por: R$ 119,90

Vendido por Amazon

Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco

De: R$ 699,00
Por: R$ 398,99

Vendido por Amazon

Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto

De: R$ 109,90
Por: R$ 79,90

Vendido por Amazon

Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite

De: R$ 299,90
Por: R$ 222,11

O sistema depende em parte de “Transformadores” (ou redes neurais profundas) que imitam os neuônios no cerébro. Os transformadores pesam cada entrada e saída, na hora, como links sinápticos, ajudando-os a processar seqüências demoradas de maneira muito eficiente — uma frase complexa, por exemplo. Combine isso com um componente codificador de remoção de ruído e o AI pode fazer muito com relativamente pouco.

Os resultados não são perfeitos — o som é ligeiramente robótico — mas são altamente precisos, com uma inteligibilidade de 99,84%. Mais importante, isso poderia tornar o texto para fala mais acessível. Você não precisaria gastar muito esforço para obter vozes realistas, colocando-a ao alcance de pequenas empresas e até de usuários amadores. Isso também é um bom presságio para o futuro. Os pesquisadores esperam treinar dados não marcados, de modo que talvez seja necessário ainda menos trabalho para criar um diálogo realista.