(Imagem: Pedro Spadoni via DALL-E/Olhar Digital)
O Google Research e o laboratório de pesquisa de IA do Google, DeepMind, detalharam o alcance do Med-Gemini, “família” de modelos de inteligência artificial (IA) especializados em medicina. E os dados são promissores.
Os modelos Gemini do Google são uma nova geração de modelos de IA multimodais – podem processar informações de diferentes modalidades (texto, imagens, vídeos e áudio). O Med-Gemini tem as vantagens dos modelos Gemini, mas afinados para medicina (daí o nome).
Leia mais:
Os pesquisadores testaram essas adaptações focadas em medicina e incluíram seus resultados num artigo disponível na plataforma arXiv. Confira abaixo os trechos mais impressionantes do documento (de 58 páginas, diga-se).
Chegar a um diagnóstico e formular um plano de tratamento exige que os médicos combinem seu próprio conhecimento médico com uma série de outras informações relevantes (sintomas do paciente; histórico médico, cirúrgico e social; resultados de laboratório).
Por isso, com o Med-Gemini, o Google incluiu acesso à pesquisa baseada na web para permitir um raciocínio clínico mais avançado.
Como muitos modelos grande de linguagem (LLMs) focados em medicina, o Med-Gemini foi treinado no MedQA, perguntas de múltipla escolha representativas das perguntas do Exame de Licença Médica dos EUA (USMLE) projetadas para testar conhecimento médico e raciocínio em cenários diversos.
No entanto, o Google também desenvolveu dois conjuntos de dados para o modelo. Confira abaixo:
No caso do MedQA-RS, funciona assim: se uma pergunta médica levar a uma resposta incerta, o modelo é solicitado a realizar uma pesquisa na web para obter mais informações para resolver a incerteza.
O Med-Gemini foi testado em 14 benchmarks médicos e estabeleceu um novo padrão de excelência (SoTA) em dez, superando a família de modelos GPT-4 em todos os benchmarks.
No benchmark MedQA (USMLE), o Med-Gemini alcançou 91,1% de precisão usando sua estratégia de busca guiada por incerteza, superando o LLM médico anterior do Google, o Med-PaLM 2, por 4,5%.
Em sete benchmarks multimodais, incluindo o desafio de imagens do New England Journal of Medicine (NEJM) (imagens de casos clínicos desafiadores dos quais um diagnóstico é feito a partir de uma lista de dez), o Med-Gemini teve um desempenho melhor do que o GPT-4 por uma margem relativa média de 44,5%.
“Embora os resultados sejam promissores, pesquisas adicionais significativas são necessárias”, escreveram os pesquisadores. “Por exemplo, não consideramos restringir os resultados da pesquisa a fontes médicas mais autoritárias, usando recuperação de pesquisa multimodal ou análise de precisão e relevância dos resultados da pesquisa e a qualidade das citações. Além disso, ainda resta ver se LLMs menores também podem ser ensinados a fazer uso da pesquisa na web. Deixamos essas explorações para trabalhos futuros.”
Prontuários eletrônicos de saúde (EHRs) podem ser longos, mas os médicos precisam estar cientes do que eles contêm. E os documentos geralmente contêm similaridades textuais, erros de ortografia, acrônimos e sinônimos. Ou seja, elementos que podem confundir a IA.
Para testar a capacidade do Med-Gemini de entender e raciocinar a partir de informações médicas de contexto longo, os pesquisadores realizaram uma tarefa chamada “agulha no palheiro” usando um grande banco de dados público, o Medical Information Mart for Intensive Care (MIMIC-III).
O objetivo era que o modelo recuperasse a menção relevante de uma condição médica rara e sutil, sintoma ou procedimento (a “agulha”) numa grande coleção de notas clínicas no EHR (o “palheiro”).
Ao todo, 200 exemplos foram selecionados. E cada exemplo consistia numa coleção de notas de EHR desidentificadas de 44 pacientes da UTI com longos históricos médicos.
A tarefa da “agulha no palheiro” tinha dois passos. Primeiro, o Med-Gemini precisava identificar as menções do problema médico especificado nos registros. Depois, o modelo tinha que avaliar a relevância de todas as menções, categorizá-las e concluir se o paciente tinha um histórico daquele problema, fornecendo um raciocínio claro para sua decisão.
Comparado ao método SoTA, o Med-Gemini teve um bom desempenho na tarefa. A IA do Google obteve 0.77 em precisão comparado ao método SoTA (0.85).
“Provavelmente o aspecto mais notável do Med-Gemini são as capacidades de processamento de longo contexto porque elas abrem novas fronteiras de desempenho e possibilidades de aplicação inéditas e anteriormente inviáveis para sistemas médicos de IA”, escreveram os pesquisadores.
Num teste de utilidade no mundo real, o Med-Gemini foi questionado sobre um nódulo na pele com coceira por um usuário paciente.
Após solicitar uma imagem, o modelo fez perguntas de acompanhamento apropriadas e diagnosticou corretamente a lesão rara, recomendando o que o usuário deveria fazer em seguida.
O Med-Gemini também foi solicitado a interpretar um raio-X de tórax para um médico enquanto eles esperavam por um relatório formal de radiologista e formular uma versão do relatório em inglês claro que poderia ser fornecida ao paciente.
“As capacidades de conversação multimodal do Med-Gemini-M 1.5 são promissoras, dado que são alcançadas sem nenhum ajuste fino específico de diálogo médico”, escreveram os pesquisadores. “Tais capacidades permitem interações contínuas e naturais entre pessoas, clínicos e sistemas de IA.”
No entanto, os pesquisadores reconhecem que mais trabalho é necessário.
Os pesquisadores reconhecem que há muito mais trabalho a ser feito. Eles planejam incorporar princípios de IA responsável, incluindo privacidade e equidade, em todo o processo de desenvolvimento do modelo.
“Considerações de privacidade, em particular, precisam estar enraizadas nas políticas e regulamentações de saúde existentes que governam e protegem as informações dos pacientes”, escreveram os pesquisadores.
Eles acrescentaram: “A equidade é outra área que pode requerer atenção, pois há o risco de que os sistemas de IA na saúde possam refletir ou amplificar involuntariamente vieses históricos e desigualdades, potencialmente levando a desempenho desigual do modelo e resultados prejudiciais para grupos marginalizados.”
No entanto, em última análise, o Med-Gemini é visto como uma ferramenta para o bem. “Modelos de linguagem multimodal de grande porte inauguram uma nova era de possibilidades para a saúde e medicina”, afirmaram os pesquisadores.
Esta post foi modificado pela última vez em 7 de maio de 2024 21:18