Mais barata, tecnologia de transcrição de voz começa a mudar o mercado

Tudo sobre Inteligência Artificial

Mais de 50 anos atrás a tecnologia de transcrição de voz, que permite a um computador analisar fala, ou uma gravação em tempo real e produzir um equivalente preciso em texto, era algo de ficção científica, digno de um episódio de Star Trek. Hoje, ela não só é realidade, como recentes avanços estão mudando o dia-a-dia de empresas, estudantes e palestrantes.

Ofertas

Vendido por Amazon

Monitor Gamer AOC AGON G4S 25" 310Hz 0.3ms HDR10 IPS Base Ajustável 25G4S/P

Por R$ 1.479,00

Vendido por Amazon

Tilibra - Estojo Minibox Happy Lilás

De: R$ 38,12
Por: R$ 36,21

Vendido por Amazon

Caneta Gel – CiS Gelyx – Estojo com 6 unidades – Glitter

De: R$ 30,90
Por: R$ 24,96

Vendido por Amazon

Pentel Caneta Izee 4 Cores 1.0 Corpo Branco Tinta Azul Vermelho Verde e Preto SM/BXC470W

De: R$ 15,32
Por: R$ 9,90

Vendido por Amazon

Tilibra - Caderno Brochura Capa Dura 1/4 D+ Rosa 48 Folhas, 317403

De: R$ 11,85
Por: R$ 5,86

Vendido por Amazon

Celular Positivo P26 4G Tela 1,8", Câmera traseira, 48MB RAM 128MB, Bluetooth, Modem Tethering - Preto

Por R$ 139,90

Vendido por Amazon

Mochila Grande E Reforçada Impermeável Para Notebook Antifurto Bolsa Executiva Masculina Feminina Trabalho Viagem Escolar Faculdade Cabo De Aço Saída Usb Saída Fone De Ouvido

De: R$ 149,79
Por: R$ 113,70

Vendido por Amazon

Tilibra D+ - Caderno Brochura Capa Dura, 1/4 Pequeno, 14x20cm, 48 Folhas, Vermelho

De: R$ 11,81
Por: R$ 6,90

Vendido por Amazon

Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS

De: R$ 4.699,00
Por: R$ 3.099,00

Vendido por Amazon

eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais

De: R$ 3.499,00
Por: R$ 3.324,00

Vendido por Amazon

eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais

De: R$ 1.049,00
Por: R$ 799,00

Vendido por Amazon

Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)

De: R$ 299,00
Por: R$ 241,44

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite

De: R$ 499,90
Por: R$ 388,78

Vendido por Amazon

eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal

De: R$ 2.399,00
Por: R$ 2.159,00

Vendido por Amazon

soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios

De: R$ 339,00
Por: R$ 188,99

Vendido por Amazon

WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas

De: R$ 88,00
Por: R$ 45,00

Vendido por Amazon

Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais

De: R$ 399,00
Por: R$ 379,00

Vendido por Amazon

Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza

De: R$ 1.629,90
Por: R$ 1.239,90

Vendido por Amazon

ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens

De: R$ 1.179,00
Por: R$ 943,20

Vendido por Amazon

eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3

De: R$ 999,00
Por: R$ 798,99

Vendido por Amazon

WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria

De: R$ 329,90
Por: R$ 199,00

Vendido por Amazon

WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS

De: R$ 599,90
Por: R$ 476,10

Vendido por Amazon

Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco

De: R$ 1.199,00
Por: R$ 1.139,05

Vendido por Amazon

Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica

De: R$ 1.199,00
Por: R$ 949,00

Vendido por Amazon

Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa

Por R$ 169,90

Vendido por Amazon

Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2

De: R$ 149,90
Por: R$ 119,90

Vendido por Amazon

Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco

De: R$ 699,00
Por: R$ 398,99

Vendido por Amazon

Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto

De: R$ 109,90
Por: R$ 79,90

Vendido por Amazon

Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite

De: R$ 299,90
Por: R$ 199,90

Ao capturar grandes quantidades de amostras, redes neurais podem ser treinadas para reconhecer a fala com taxas de precisão que, nas melhores circunstâncias, se aproximam de 95%. Juntamente com custo cada vez menor do armazenamento de dados, agora é possível processar a linguagem humana de maneiras impensáveis alguns anos atrás.

Sam Liang, um engenheiro elétrico formado em Stanford e membro da equipe original que projetou o Google Maps, é o executivo-chefe da Otter.ai, uma startup no Vale do Silício. Segundo ele, a compactação de dados tornou possível armazenar conversas da vida inteira de uma pessoa em apenas dois terabytes – quantidade de dados que cabe em dispositivos de armazenamento que custam menos de US$ 50.

Os rápidos avanços no mercado de transcrição automatizada no ano passado mostram um impressionante potencial de curto prazo em uma crescente variedade de novas aplicações. Neste outono, por exemplo, na Universidade da Califórnia, em Los Angeles, os alunos do campus que são portadores de deficiência auditiva estão sendo equipados com o serviço da Otter.ai. O sistema foi projetado para substituir o processo atual de captura de notas durante as aulas, onde outros alunos fazem anotações durante as aulas e as compartilham.

Empresas como a Rev, que começou em 2010 usando trabalhadores temporários para oferecer transcrição por US$ 1 por minuto, oferecem um serviço automatizado de transcrição de fala por 10 centavos por minuto. Como resultado, a transcrição está entrando em uma variedade de novas áreas, incluindo legendas para canais do YouTube, vídeos de treinamento corporativo e empresas de pesquisa de mercado que precisam de transcrições de grupos focais.

O sistema Rev permite que o cliente escolha se deseja mais precisão ou retorno mais rápido e com menor custo, disse Jason Chicola, fundador e executivo-chefe da empresa. Cada vez mais, seus clientes preferem corrigir textos gerados por máquina em vez de transcreverem do zero. Ele disse não acreditar que a transcrição automatizada possa dizimar sua força de trabalho. “Humanos e máquinas trabalharão juntos no futuro próximo”, disse ele.

No campo da medicina, a transcrição automática está sendo usada para alterar a maneira como os médicos tomam notas. Nos últimos anos os sistemas eletrônicos de registro em saúde tornaram-se parte de uma visita de rotina ao consultório, e os médicos foram criticados por olhar para suas telas e digitar, em vez de manter contato visual com os pacientes. Agora, várias startups de saúde estão oferecendo serviços de transcrição que capturam texto e potencialmente vídeo na sala de exames e usam um humano para editar o texto automatizado e produzir um conjunto “estruturado” de anotações da visita do paciente.

Este ano, o custo da transcrição automática diminuiu à medida que empresas iniciantes rivais competem por um mercado em rápido crescimento. Empresas como Otter.ai e Descript, uma empresa rival sediada em São Francisco, iniciada pelo fundador do Groupon, Andrew Mason, estão oferecendo serviços básicos de transcrição e focando na cobrança de assinaturas que oferecem recursos aprimorados.

Um exemplo dessa nova funcionalidade é o anúncio feito pelo Descript em setembro de um serviço baseado na Web destinado a permitir que podcasters editem áudio e vídeo da mesma forma que editariam texto em um processador de texto. No passado, a edição de áudio e vídeo exigia habilidades e software especiais. Agora, a Descript espera abrir a edição de áudio e vídeo para um público mais geral, disse Mason.

Os cientistas da fala enfatizam que, embora os sistemas de transcrição automatizada sejam significativamente melhorados, eles ainda estão longe de serem perfeitos. Embora uma precisão de 95% possa ser obtida por transcrição automática, isso é possível apenas nas melhores circunstâncias. Um sotaque, um microfone mal posicionado ou ruído de fundo pode causar uma queda na precisão.

A esperança para o futuro é o surgimento de outra tecnologia de fala conhecida como processamento de linguagem natural, que tenta capturar o significado de palavras e frases que aumentarão a precisão do computador para os níveis humanos. Mas, por enquanto, o processamento de linguagem natural ainda permanece uma das fronteiras mais desafiadoras no campo da inteligência artificial.

Fonte: The New York Times