Versão 'afinada' do Gemini pode mudar tudo na medicina

Tudo sobre Google

Tudo sobre Inteligência Artificial

O Google Research e o laboratório de pesquisa de IA do Google, DeepMind, detalharam o alcance do Med-Gemini, “família” de modelos de inteligência artificial (IA) especializados em medicina. E os dados são promissores.

Capacidades dos modelos Gemini na medicina

O Google Research e DeepMind detalharam os avanços do Med-Gemini, versão especializada em medicina dos modelos de IA multimodais Gemini da big tech;
Os pesquisadores testaram as capacidades do Med-Gemini em várias condições, incluindo a resposta a perguntas médicas representativas do Exame de Licença Médica dos EUA (USMLE). O modelo também utilizou informações da web para aumentar a precisão das respostas através do MedQA-RS, conjunto de dados que combina raciocínio e pesquisa na web;
O Med-Gemini foi testado em 14 benchmarks médicos, estabelecendo um novo padrão de excelência em dez deles e superando modelos anteriores como o Med-PaLM 2. Isso inclui um desempenho notável em tarefas multimodais, como o desafio de imagens médicas do New England Journal of Medicine;
Numa aplicação prática, o Med-Gemini conseguiu identificar corretamente um nódulo na pele a partir de uma imagem fornecida por um usuário, demonstrando sua capacidade de realizar diagnósticos precisos e oferecer recomendações. Além disso, os pesquisadores consideram incorporar princípios de IA responsável no desenvolvimento do modelo para garantir privacidade, equidade e evitar a amplificação de vieses históricos;
O Med-Gemini representa uma significativa inovação na interseção da IA e da medicina, prometendo transformar as capacidades diagnósticas e terapêuticas na saúde através de sua habilidade de processar e entender grandes volumes de dados complexos e multimodais (texto, imagem, áudio).

Os modelos Gemini do Google são uma nova geração de modelos de IA multimodais – podem processar informações de diferentes modalidades (texto, imagens, vídeos e áudio). O Med-Gemini tem as vantagens dos modelos Gemini, mas afinados para medicina (daí o nome).

Leia mais:

Pesquisadores detalham alcance do Gemini na medicina

Pessoa usando celular com logomarca do Gemini atrás — (Imagem: rafares/Shutterstock)

Os pesquisadores testaram essas adaptações focadas em medicina e incluíram seus resultados num artigo disponível na plataforma arXiv. Confira abaixo os trechos mais impressionantes do documento (de 58 páginas, diga-se).

Autotreinamento e pesquisa na web

Chegar a um diagnóstico e formular um plano de tratamento exige que os médicos combinem seu próprio conhecimento médico com uma série de outras informações relevantes (sintomas do paciente; histórico médico, cirúrgico e social; resultados de laboratório).

Por isso, com o Med-Gemini, o Google incluiu acesso à pesquisa baseada na web para permitir um raciocínio clínico mais avançado.

Como muitos modelos grande de linguagem (LLMs) focados em medicina, o Med-Gemini foi treinado no MedQA, perguntas de múltipla escolha representativas das perguntas do Exame de Licença Médica dos EUA (USMLE) projetadas para testar conhecimento médico e raciocínio em cenários diversos.

No entanto, o Google também desenvolveu dois conjuntos de dados para o modelo. Confira abaixo:

MedQA-R (Raciocínio): estende o MedQA com explicações de raciocínio geradas sinteticamente chamadas “Chain-of-Thoughts” (CoTs);
MedQA-RS (Raciocínio e Pesquisa): fornece ao modelo instruções para usar resultados de pesquisa na web como contexto adicional para melhorar a precisão das respostas.

No caso do MedQA-RS, funciona assim: se uma pergunta médica levar a uma resposta incerta, o modelo é solicitado a realizar uma pesquisa na web para obter mais informações para resolver a incerteza.

Imagem de robô cuidando de paciente para ilustrar inteligência artificial na medicina — (Imagem: Pedro Spadoni via DALL-E/Olhar Digital)

O Med-Gemini foi testado em 14 benchmarks médicos e estabeleceu um novo padrão de excelência (SoTA) em dez, superando a família de modelos GPT-4 em todos os benchmarks.

No benchmark MedQA (USMLE), o Med-Gemini alcançou 91,1% de precisão usando sua estratégia de busca guiada por incerteza, superando o LLM médico anterior do Google, o Med-PaLM 2, por 4,5%.

Em sete benchmarks multimodais, incluindo o desafio de imagens do New England Journal of Medicine (NEJM) (imagens de casos clínicos desafiadores dos quais um diagnóstico é feito a partir de uma lista de dez), o Med-Gemini teve um desempenho melhor do que o GPT-4 por uma margem relativa média de 44,5%.

“Embora os resultados sejam promissores, pesquisas adicionais significativas são necessárias”, escreveram os pesquisadores. “Por exemplo, não consideramos restringir os resultados da pesquisa a fontes médicas mais autoritárias, usando recuperação de pesquisa multimodal ou análise de precisão e relevância dos resultados da pesquisa e a qualidade das citações. Além disso, ainda resta ver se LLMs menores também podem ser ensinados a fazer uso da pesquisa na web. Deixamos essas explorações para trabalhos futuros.”

Garimpagem de informações em prontuários extensos

Prontuários eletrônicos de saúde (EHRs) podem ser longos, mas os médicos precisam estar cientes do que eles contêm. E os documentos geralmente contêm similaridades textuais, erros de ortografia, acrônimos e sinônimos. Ou seja, elementos que podem confundir a IA.

Para testar a capacidade do Med-Gemini de entender e raciocinar a partir de informações médicas de contexto longo, os pesquisadores realizaram uma tarefa chamada “agulha no palheiro” usando um grande banco de dados público, o Medical Information Mart for Intensive Care (MIMIC-III).

O objetivo era que o modelo recuperasse a menção relevante de uma condição médica rara e sutil, sintoma ou procedimento (a “agulha”) numa grande coleção de notas clínicas no EHR (o “palheiro”).

Ao todo, 200 exemplos foram selecionados. E cada exemplo consistia numa coleção de notas de EHR desidentificadas de 44 pacientes da UTI com longos históricos médicos.

A tarefa da “agulha no palheiro” tinha dois passos. Primeiro, o Med-Gemini precisava identificar as menções do problema médico especificado nos registros. Depois, o modelo tinha que avaliar a relevância de todas as menções, categorizá-las e concluir se o paciente tinha um histórico daquele problema, fornecendo um raciocínio claro para sua decisão.

Comparado ao método SoTA, o Med-Gemini teve um bom desempenho na tarefa. A IA do Google obteve 0.77 em precisão comparado ao método SoTA (0.85).

“Provavelmente o aspecto mais notável do Med-Gemini são as capacidades de processamento de longo contexto porque elas abrem novas fronteiras de desempenho e possibilidades de aplicação inéditas e anteriormente inviáveis para sistemas médicos de IA”, escreveram os pesquisadores.

Conversas com o Med-Gemini

Celular com logotipo do Gemini colocado sobre teclado de notebook — (Imagem: Rafapress/Shutterstock)

Num teste de utilidade no mundo real, o Med-Gemini foi questionado sobre um nódulo na pele com coceira por um usuário paciente.

Após solicitar uma imagem, o modelo fez perguntas de acompanhamento apropriadas e diagnosticou corretamente a lesão rara, recomendando o que o usuário deveria fazer em seguida.

O Med-Gemini também foi solicitado a interpretar um raio-X de tórax para um médico enquanto eles esperavam por um relatório formal de radiologista e formular uma versão do relatório em inglês claro que poderia ser fornecida ao paciente.

“As capacidades de conversação multimodal do Med-Gemini-M 1.5 são promissoras, dado que são alcançadas sem nenhum ajuste fino específico de diálogo médico”, escreveram os pesquisadores. “Tais capacidades permitem interações contínuas e naturais entre pessoas, clínicos e sistemas de IA.”

No entanto, os pesquisadores reconhecem que mais trabalho é necessário.

Pesquisadores exploram próximos passos do Med-Gemini

Os pesquisadores reconhecem que há muito mais trabalho a ser feito. Eles planejam incorporar princípios de IA responsável, incluindo privacidade e equidade, em todo o processo de desenvolvimento do modelo.

“Considerações de privacidade, em particular, precisam estar enraizadas nas políticas e regulamentações de saúde existentes que governam e protegem as informações dos pacientes”, escreveram os pesquisadores.

Eles acrescentaram: “A equidade é outra área que pode requerer atenção, pois há o risco de que os sistemas de IA na saúde possam refletir ou amplificar involuntariamente vieses históricos e desigualdades, potencialmente levando a desempenho desigual do modelo e resultados prejudiciais para grupos marginalizados.”

No entanto, em última análise, o Med-Gemini é visto como uma ferramenta para o bem. “Modelos de linguagem multimodal de grande porte inauguram uma nova era de possibilidades para a saúde e medicina”, afirmaram os pesquisadores.

Versão ‘afinada’ do Gemini pode mudar tudo na medicina