Por Eduardo Salles, Diretor de Inovação da Dotter Brasil
Todo mundo já sabe, mas a frase nunca perde sua magia: TREINO É UMA COISA, JOGO É OUTRA. 

Estávamos todos muito empolgados (talvez ‘assustados’ seja a realidade para a maioria das pessoas) com a chegada da Inteligência Artificial através dos modelos de linguagem (Large Language Models ou LLMs) e com os impactos desta tecnologia sobre a produtividade de todos nós. 

publicidade

Toda essa comoção não era à toa. Afinal, é realmente espetacular ver a capacidade de processamento de informações, identificação de padrões em bases de dados desestruturadas e a transformação de tudo isso em informação humanizada através de ferramentas como o ChatGPT, Gemini, Llama e tantos outros.

Chegada da inteligência artificial impactou profissionais e negócios (Imagem: Yuichiro Chino/Shutterstock)

Assim, o tempo passa e as ferramentas de Inteligência Artificial começam a tomar a forma de soluções para diversas aplicações na forma de produtos e serviços específicos. É hora de sair do TREINO e entrar em campo para o JOGO DE VERDADE… é aí que os problemas começam a aparecer. Isso porque o mundo real é muito diferente da “prancheta”.

A IA é genial, mas precisa de entrada de dados para fazer o que quer que seja. A questão é que a entrada de dados possui uma infinidade de variáveis absolutamente amorfas, incontroláveis e, por vezes, aleatórias que torna a viabilidade das soluções um desafio tão expressivo quando o próprio desenvolvimento das LLMs em si. 

Estamos falando de coisas como: arquivos em formatos diferentes, câmeras com resoluções diferentes, imagens com luminosidade variável, sons misturados com ruídos, velocidade e latência das conexões de rede oscilantes, tons de pele, enfim: todo um universo de variáveis que vêm “atrapalhar” a precisão das IAs que, além de tudo, passam a ter seus resultados rotulados como “alucinações”. 

Um exemplo muito interessante e ilustrador destes desafios ocorreu quando iniciamos o desenvolvimento de uma ferramenta para a captura e transcrição de consultas médicas com geração autônoma de prontuário e anamnese. 

IAs estão sujeitas a erros, conhecidos como “alucinações” (Imagem: agsandrew/Shutterstock)

Quem quiser testar e brincar com a versão gratuita do nosso Escriba, pode acessar o link a seguir (não é preciso nenhum cadastro e nem fornecer seus dados para acessar): Transcritor de Áudio com Inteligência Artificial.

A capacidade das LLMs de, ao receber a transcrição de uma consulta, transformá-la em um prontuário é espetacular, mas depende, invariavelmente, da qualidade do texto transcrito. 

A captura de áudio e transcrição são ferramentas relativamente antigas e “confiáveis” e nos debruçamos no uso das bibliotecas Speech-to-Text que funcionam de forma excelente em inúmeros softwares, aplicativos e páginas web. 

Sim: funcionam de forma excelente QUANDO a conexão com a rede é extremamente estável… ninguém imaginava que as redes de dados em ambientes hospitalares e postos de saúde eram bastante instáveis. A rede está lá, disponível. Funciona muito bem para navegar pela internet, acessar sistemas e assistir ao YouTube. 

Mas, Captura e Transcrição de Áudio é uma outra história… 

Mão quase tocando linhas coloridas de código em formato que ilustra conceito de inteligência artificial
Desempenho da IA depende de uma série de variáveis, que nem sempre estão no controle (Imagem: NicoElNino/Shutterstock)

Perdendo o Foco 

O projeto passou a se desviar totalmente de seu foco, consumindo tempo e recursos para conseguir superar as dificuldades de captura de áudio com qualidade. 

Conversamos com empresas de telefonia e redes de dados e, quanto mais me aprofundava no tema, mais descobria o tamanho dos desafios e dos investimentos necessários para superá-los. 

Parecia cada vez mais óbvio que nenhuma instituição de saúde redirecionaria recursos necessários a investimentos em equipamentos médicos, instalações e profissionais para melhorar a qualidade da rede de dados. 

Leia mais:

Após meses de trabalho, conseguimos uma solução razoavelmente boa e viável (tanto economicamente quanto em sua capacidade de adaptação a diferentes dispositivos e ambientes) e conseguimos um resultado com 98% de acuracidade. 

Legal, né? Infelizmente não. Para o uso médico, nenhuma acuracidade inferior a 100% na captura de áudio é aceitável e a ferramenta segue em desenvolvimento. 

A questão é que, vamos lembrar, inovação também tem que pagar contas e dar resultados… como financiar este desenvolvimento ainda sem horizonte claro de tempo e custos? E a IA passa a enfrentar outra variável: o mundo dos negócios e das finanças. 

Mas isso já é assunto para outro artigo. Por enquanto, me limito a compartilhar com vocês outras ferramentas para transcrição de áudio: Notta.AI, Transkriptor, Veed.IO e HappyScribe.