O Google Research e o laboratório de pesquisa de IA do Google, DeepMind, detalharam o alcance do Med-Gemini, “família” de modelos de inteligência artificial (IA) especializados em medicina. E os dados são promissores.

Capacidades dos modelos Gemini na medicina

  • O Google Research e DeepMind detalharam os avanços do Med-Gemini, versão especializada em medicina dos modelos de IA multimodais Gemini da big tech;
  • Os pesquisadores testaram as capacidades do Med-Gemini em várias condições, incluindo a resposta a perguntas médicas representativas do Exame de Licença Médica dos EUA (USMLE). O modelo também utilizou informações da web para aumentar a precisão das respostas através do MedQA-RS, conjunto de dados que combina raciocínio e pesquisa na web;
  • O Med-Gemini foi testado em 14 benchmarks médicos, estabelecendo um novo padrão de excelência em dez deles e superando modelos anteriores como o Med-PaLM 2. Isso inclui um desempenho notável em tarefas multimodais, como o desafio de imagens médicas do New England Journal of Medicine;
  • Numa aplicação prática, o Med-Gemini conseguiu identificar corretamente um nódulo na pele a partir de uma imagem fornecida por um usuário, demonstrando sua capacidade de realizar diagnósticos precisos e oferecer recomendações. Além disso, os pesquisadores consideram incorporar princípios de IA responsável no desenvolvimento do modelo para garantir privacidade, equidade e evitar a amplificação de vieses históricos;
  • O Med-Gemini representa uma significativa inovação na interseção da IA e da medicina, prometendo transformar as capacidades diagnósticas e terapêuticas na saúde através de sua habilidade de processar e entender grandes volumes de dados complexos e multimodais (texto, imagem, áudio).

Os modelos Gemini do Google são uma nova geração de modelos de IA multimodais – podem processar informações de diferentes modalidades (texto, imagens, vídeos e áudio). O Med-Gemini tem as vantagens dos modelos Gemini, mas afinados para medicina (daí o nome). 

publicidade

Leia mais:

Pesquisadores detalham alcance do Gemini na medicina

Pessoa usando celular com logomarca do Gemini atrás
(Imagem: rafares/Shutterstock)

Os pesquisadores testaram essas adaptações focadas em medicina e incluíram seus resultados num artigo disponível na plataforma arXiv. Confira abaixo os trechos mais impressionantes do documento (de 58 páginas, diga-se).

publicidade

Autotreinamento e pesquisa na web

Chegar a um diagnóstico e formular um plano de tratamento exige que os médicos combinem seu próprio conhecimento médico com uma série de outras informações relevantes (sintomas do paciente; histórico médico, cirúrgico e social; resultados de laboratório). 

Por isso, com o Med-Gemini, o Google incluiu acesso à pesquisa baseada na web para permitir um raciocínio clínico mais avançado. 

publicidade

Como muitos modelos grande de linguagem (LLMs) focados em medicina, o Med-Gemini foi treinado no MedQA, perguntas de múltipla escolha representativas das perguntas do Exame de Licença Médica dos EUA (USMLE) projetadas para testar conhecimento médico e raciocínio em cenários diversos.

No entanto, o Google também desenvolveu dois conjuntos de dados para o modelo. Confira abaixo:

publicidade
  • MedQA-R (Raciocínio): estende o MedQA com explicações de raciocínio geradas sinteticamente chamadas “Chain-of-Thoughts” (CoTs);
  • MedQA-RS (Raciocínio e Pesquisa): fornece ao modelo instruções para usar resultados de pesquisa na web como contexto adicional para melhorar a precisão das respostas.

No caso do MedQA-RS, funciona assim: se uma pergunta médica levar a uma resposta incerta, o modelo é solicitado a realizar uma pesquisa na web para obter mais informações para resolver a incerteza.

Imagem de robô cuidando de paciente para ilustrar inteligência artificial na medicina
(Imagem: Pedro Spadoni via DALL-E/Olhar Digital)

O Med-Gemini foi testado em 14 benchmarks médicos e estabeleceu um novo padrão de excelência (SoTA) em dez, superando a família de modelos GPT-4 em todos os benchmarks. 

No benchmark MedQA (USMLE), o Med-Gemini alcançou 91,1% de precisão usando sua estratégia de busca guiada por incerteza, superando o LLM médico anterior do Google, o Med-PaLM 2, por 4,5%.

Em sete benchmarks multimodais, incluindo o desafio de imagens do New England Journal of Medicine (NEJM) (imagens de casos clínicos desafiadores dos quais um diagnóstico é feito a partir de uma lista de dez), o Med-Gemini teve um desempenho melhor do que o GPT-4 por uma margem relativa média de 44,5%.

“Embora os resultados sejam promissores, pesquisas adicionais significativas são necessárias”, escreveram os pesquisadores. “Por exemplo, não consideramos restringir os resultados da pesquisa a fontes médicas mais autoritárias, usando recuperação de pesquisa multimodal ou análise de precisão e relevância dos resultados da pesquisa e a qualidade das citações. Além disso, ainda resta ver se LLMs menores também podem ser ensinados a fazer uso da pesquisa na web. Deixamos essas explorações para trabalhos futuros.”

Garimpagem de informações em prontuários extensos

(Imagem: Antonio Marca/Shutterstock)

Prontuários eletrônicos de saúde (EHRs) podem ser longos, mas os médicos precisam estar cientes do que eles contêm. E os documentos geralmente contêm similaridades textuais, erros de ortografia, acrônimos e sinônimos. Ou seja, elementos que podem confundir a IA.

Para testar a capacidade do Med-Gemini de entender e raciocinar a partir de informações médicas de contexto longo, os pesquisadores realizaram uma tarefa chamada “agulha no palheiro” usando um grande banco de dados público, o Medical Information Mart for Intensive Care (MIMIC-III).

O objetivo era que o modelo recuperasse a menção relevante de uma condição médica rara e sutil, sintoma ou procedimento (a “agulha”) numa grande coleção de notas clínicas no EHR (o “palheiro”).

(Imagem: LALAKA/Shutterstock)

Ao todo, 200 exemplos foram selecionados. E cada exemplo consistia numa coleção de notas de EHR desidentificadas de 44 pacientes da UTI com longos históricos médicos.

A tarefa da “agulha no palheiro” tinha dois passos. Primeiro, o Med-Gemini precisava identificar as menções do problema médico especificado nos registros. Depois, o modelo tinha que avaliar a relevância de todas as menções, categorizá-las e concluir se o paciente tinha um histórico daquele problema, fornecendo um raciocínio claro para sua decisão.

Comparado ao método SoTA, o Med-Gemini teve um bom desempenho na tarefa. A IA do Google obteve 0.77 em precisão comparado ao método SoTA (0.85).

“Provavelmente o aspecto mais notável do Med-Gemini são as capacidades de processamento de longo contexto porque elas abrem novas fronteiras de desempenho e possibilidades de aplicação inéditas e anteriormente inviáveis para sistemas médicos de IA”, escreveram os pesquisadores.

Conversas com o Med-Gemini

Celular com logotipo do Gemini colocado sobre teclado de notebook
(Imagem: Rafapress/Shutterstock)

Num teste de utilidade no mundo real, o Med-Gemini foi questionado sobre um nódulo na pele com coceira por um usuário paciente. 

Após solicitar uma imagem, o modelo fez perguntas de acompanhamento apropriadas e diagnosticou corretamente a lesão rara, recomendando o que o usuário deveria fazer em seguida.

O Med-Gemini também foi solicitado a interpretar um raio-X de tórax para um médico enquanto eles esperavam por um relatório formal de radiologista e formular uma versão do relatório em inglês claro que poderia ser fornecida ao paciente.

“As capacidades de conversação multimodal do Med-Gemini-M 1.5 são promissoras, dado que são alcançadas sem nenhum ajuste fino específico de diálogo médico”, escreveram os pesquisadores. “Tais capacidades permitem interações contínuas e naturais entre pessoas, clínicos e sistemas de IA.”

No entanto, os pesquisadores reconhecem que mais trabalho é necessário.

Pesquisadores exploram próximos passos do Med-Gemini

(Imagem: metamorworks/Shutterstock)

Os pesquisadores reconhecem que há muito mais trabalho a ser feito. Eles planejam incorporar princípios de IA responsável, incluindo privacidade e equidade, em todo o processo de desenvolvimento do modelo.

“Considerações de privacidade, em particular, precisam estar enraizadas nas políticas e regulamentações de saúde existentes que governam e protegem as informações dos pacientes”, escreveram os pesquisadores. 

Eles acrescentaram: “A equidade é outra área que pode requerer atenção, pois há o risco de que os sistemas de IA na saúde possam refletir ou amplificar involuntariamente vieses históricos e desigualdades, potencialmente levando a desempenho desigual do modelo e resultados prejudiciais para grupos marginalizados.”

No entanto, em última análise, o Med-Gemini é visto como uma ferramenta para o bem. “Modelos de linguagem multimodal de grande porte inauguram uma nova era de possibilidades para a saúde e medicina”, afirmaram os pesquisadores.