Estudo sugere que penalizar a IA pode melhorar precisão de diagnósticos

Tudo sobre Inteligência Artificial

Considerando que algoritmos de machine learning (aprendizado de máquina) estão cada vez mais presentes no setor de saúde, pesquisadores da Universidade de Joanesburgo, na África do Sul, publicaram novo estudo que sugere que penalizar uma inteligência artificial (IA) sempre que ela erra um diagnóstico clínico pode ajudá-la a melhorar a exatidão de seus resultados.

Em tempos de pandemia – fora testes de infecções sexualmente transmissíveis, como o HIV -, o volume dos chamados “falsos positivos”, ou seja, pessoas cujo exame médico apontou a presença de algum problema, mas na verdade não há nenhum, vem aumentando. O uso da IA nessas análises também, mas alguns especialistas encontraram problemas na forma como os médicos entendem essas ferramentas como “precisas”.

Leia também

Uso de sistema que pode penalizar a IA na saúde pode aprimorar recursos de machine learning — Sistemas de inteligência artificial empregados na medicina ainda são vulneráveis a erros, mas time de pesquisadores afirma ter descoberto forma de anular essa possibilidade (Imagem: greenbutterfly/Shutterstock)

“Imagine, por exemplo, que uma base de pacientes apresentou uma doença séria. Nessa base, 90 pessoas não têm essa doença, mas 10 estão sofrendo dela”, disse o Doutor Ibomoiye Domor Mienye, pesquisador pós-doutorado de Inteligência Artificial na instituição.

“Agora, digamos que um algoritmo de machine learning afirme que 90 pessoas não têm a doença. Até aqui, tudo bem. Mas esse algoritmo não consegue determinar as outras 10 pessoas que estão doentes. Nas contas mais simplistas, esse algoritmo ainda será apresentado como tendo 90% de precisão”, ele conta.

Entende-se por “machine learning” um ramo da inteligência artificial onde um sistema tem uma base de dados para começar a analisar suas obrigações, melhorando cada vez mais conforme ele as executa. Pense em você jogando Call of Duty: no começo, sua mira era ruim, mas foi melhorando com a prática – mesmo conceito.

O problema com esse entendimento é que as 10 pessoas doentes não diagnosticadas podem precisar de algum cuidado urgente – e um tratamento atrasado neste panorama diz muito mais sobre os 10% que a máquina errou do que os 90% que ela acertou. Mas e se os sintomas naqueles 10% foram mais amenos e, por isso, a IA não conseguiu diagnosticá-los corretamente?

Pensando nisso, Mienye, junto da professora Yanxia Sun, testaram diversos sistemas no intuito de melhorar as disparidades diagnósticas apresentadas pela inteligência artificial, tais como algoritmos de regressão lógica, árvore de decisões e outros sistemas. A grosso modo, todas essas plataformas consistem em posicionar problemas específicos cujas respostas possíveis são apenas “Sim” ou “Não”.

Com tudo instalado, os especialistas criaram um método de sensibilidade de custo que, basicamente, vai penalizar a IA muito mais por falsos negativos (quando uma pessoa não tem a doença, mas o exame a acusa) do que falsos positivos. As bases usadas envolvem 858 registros de câncer cervical, 400 registros de infecção crônica dos rins, e outras centenas distribuídas em câncer de mama e diabetes, testando todos os algoritmos acima.

No primeiro teste, o parâmetro de sensibilidade de custo foi removido – ou seja, os algoritmos trabalhavam em seu funcionamento normal. Em média, todos eles pontuaram cerca de 0,950 (o resultado perfeito é “1”), com taxa de retorno a 0,940 (basicamente, um paciente com falso negativo voltou e, na segunda avaliação, a doença foi identificada).

Depois, o parâmetro de sensibilidade de custo, onde havia a capacidade de penalizar a IA, foi inserido: todos os algoritmos atingiram a pontuação perfeita de “1”, exceto um, em um panorama específico (o algoritmo conhecido por “Floresta Aleatória de Decisões”, que ficou em 0,990, sem recall de pacientes).

A premissa sugere que um senso de responsabilidade pela informação passada pode ajudar a aprimorar a exatidão dos diagnósticos produzidos pela IA, o que se converte em mais tratamentos começando mais cedo e, consequentemente, mais gente curada/avaliada.

De acordo com Mienye, o problema está em como o sistema compreende a própria conta: normalmente, sistemas de machine learning empregados na saúde são mais propensos a acertar quando você não tem uma doença, se comparado a quando você está doente.

Isso acontece porque as bases de dados usadas para treino desses algoritmos vêm, na maioria, de grandes hospitais, onde a análise é alta, mas a conversão e confirmação de doentes é baixa. Em suma, muita gente se consulta para uma doença “X”, mas descobre que não a tem.

“Em um hospital de grande porte, uma pessoa é testada para infecção crônica dos rins. Seu médico pediu exames porque ela apresentou alguns dos sintomas relacionados à doença. Mas o médico quer descartar essa possibilidade, e os exames revelam que aquela pessoa está bem dos rins”, disse o doutor. “Isso acontece com muita gente, e por isso, as bases de dados acabam tendo muito mais registros de quem não tem infecção crônica dos rins, do que pessoas que a têm. O nome disso, em nosso campo, é ‘base sem equilíbrio’”.

Em termos resumidos: quando um algoritmo analisa essa base de dados, a disparidade numérica faz com que ele aprenda bem menos do que deveria sobre uma doença. Consequentemente, sintomas menos evidentes – mas que correspondem à ela – acabam passando despercebidos.

O estudo já foi revisado pelos pares e, esperam os especialistas, poderá servir de base para que engenheiros de software construam sistemas mais aprimorados. Afinal, é da saúde humana que estamos falando, então todo acerto conta.

Já assistiu aos nossos novos vídeos no YouTube? Inscreva-se no nosso canal!

Estudo sugere que penalizar a IA por diagnósticos clínicos ruins melhora sua precisão