Versão ‘afinada’ do Gemini pode mudar tudo na medicina

O Google Research e o DeepMind, laboratório de pesquisa em IA, detalharam o alcance do Med-Gemini – e os dados são promissores
Pedro Spadoni06/05/2024 12h15, atualizada em 07/05/2024 21h18
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

O Google Research e o laboratório de pesquisa de IA do Google, DeepMind, detalharam o alcance do Med-Gemini, “família” de modelos de inteligência artificial (IA) especializados em medicina. E os dados são promissores.

Ofertas

Agenda 2026 Coleção Happy Com Capa Dura Círculos Colors
Vendido por Amazon
Agenda 2026 Coleção Happy Com Capa Dura Círculos Colors
Por R$ 45,90
Suporte para 2 Controles de PlayStation 5 PS5, Apoio de Mesa Gamer, Modelo VN
Vendido por Amazon
Suporte para 2 Controles de PlayStation 5 PS5, Apoio de Mesa Gamer, Modelo VN
De: R$ 39,92
Por: R$ 37,92
Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
Vendido por Amazon
Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
De: R$ 27,90
Por: R$ 22,59
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
Vendido por Amazon
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
De: R$ 67,44
Por: R$ 59,95
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
Vendido por Amazon
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
De: R$ 1.049,00
Por: R$ 799,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
De: R$ 499,90
Por: R$ 388,78
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
Vendido por Amazon
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
De: R$ 2.399,00
Por: R$ 2.159,00
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
Vendido por Amazon
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
De: R$ 88,00
Por: R$ 45,00
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
Vendido por Amazon
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
De: R$ 399,00
Por: R$ 379,00
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
Vendido por Amazon
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
De: R$ 1.629,90
Por: R$ 1.239,90
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Vendido por Amazon
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
De: R$ 1.179,00
Por: R$ 943,20
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
Vendido por Amazon
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
De: R$ 999,00
Por: R$ 798,99
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
Vendido por Amazon
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
De: R$ 329,90
Por: R$ 200,29
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
Vendido por Amazon
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
De: R$ 599,90
Por: R$ 476,10
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
Vendido por Amazon
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
De: R$ 1.199,00
Por: R$ 1.139,05
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Vendido por Amazon
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
De: R$ 169,90
Por: R$ 155,44
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
De: R$ 149,90
Por: R$ 119,90
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
Vendido por Amazon
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
De: R$ 699,00
Por: R$ 398,99
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
Vendido por Amazon
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
De: R$ 109,90
Por: R$ 79,90
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
Vendido por Amazon
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
De: R$ 299,90
Por: R$ 199,90

Capacidades dos modelos Gemini na medicina

  • O Google Research e DeepMind detalharam os avanços do Med-Gemini, versão especializada em medicina dos modelos de IA multimodais Gemini da big tech;
  • Os pesquisadores testaram as capacidades do Med-Gemini em várias condições, incluindo a resposta a perguntas médicas representativas do Exame de Licença Médica dos EUA (USMLE). O modelo também utilizou informações da web para aumentar a precisão das respostas através do MedQA-RS, conjunto de dados que combina raciocínio e pesquisa na web;
  • O Med-Gemini foi testado em 14 benchmarks médicos, estabelecendo um novo padrão de excelência em dez deles e superando modelos anteriores como o Med-PaLM 2. Isso inclui um desempenho notável em tarefas multimodais, como o desafio de imagens médicas do New England Journal of Medicine;
  • Numa aplicação prática, o Med-Gemini conseguiu identificar corretamente um nódulo na pele a partir de uma imagem fornecida por um usuário, demonstrando sua capacidade de realizar diagnósticos precisos e oferecer recomendações. Além disso, os pesquisadores consideram incorporar princípios de IA responsável no desenvolvimento do modelo para garantir privacidade, equidade e evitar a amplificação de vieses históricos;
  • O Med-Gemini representa uma significativa inovação na interseção da IA e da medicina, prometendo transformar as capacidades diagnósticas e terapêuticas na saúde através de sua habilidade de processar e entender grandes volumes de dados complexos e multimodais (texto, imagem, áudio).

Os modelos Gemini do Google são uma nova geração de modelos de IA multimodais – podem processar informações de diferentes modalidades (texto, imagens, vídeos e áudio). O Med-Gemini tem as vantagens dos modelos Gemini, mas afinados para medicina (daí o nome). 

Leia mais:

Pesquisadores detalham alcance do Gemini na medicina

Pessoa usando celular com logomarca do Gemini atrás
(Imagem: rafares/Shutterstock)

Os pesquisadores testaram essas adaptações focadas em medicina e incluíram seus resultados num artigo disponível na plataforma arXiv. Confira abaixo os trechos mais impressionantes do documento (de 58 páginas, diga-se).

Autotreinamento e pesquisa na web

Chegar a um diagnóstico e formular um plano de tratamento exige que os médicos combinem seu próprio conhecimento médico com uma série de outras informações relevantes (sintomas do paciente; histórico médico, cirúrgico e social; resultados de laboratório). 

Por isso, com o Med-Gemini, o Google incluiu acesso à pesquisa baseada na web para permitir um raciocínio clínico mais avançado. 

Como muitos modelos grande de linguagem (LLMs) focados em medicina, o Med-Gemini foi treinado no MedQA, perguntas de múltipla escolha representativas das perguntas do Exame de Licença Médica dos EUA (USMLE) projetadas para testar conhecimento médico e raciocínio em cenários diversos.

No entanto, o Google também desenvolveu dois conjuntos de dados para o modelo. Confira abaixo:

  • MedQA-R (Raciocínio): estende o MedQA com explicações de raciocínio geradas sinteticamente chamadas “Chain-of-Thoughts” (CoTs);
  • MedQA-RS (Raciocínio e Pesquisa): fornece ao modelo instruções para usar resultados de pesquisa na web como contexto adicional para melhorar a precisão das respostas.

No caso do MedQA-RS, funciona assim: se uma pergunta médica levar a uma resposta incerta, o modelo é solicitado a realizar uma pesquisa na web para obter mais informações para resolver a incerteza.

Imagem de robô cuidando de paciente para ilustrar inteligência artificial na medicina
(Imagem: Pedro Spadoni via DALL-E/Olhar Digital)

O Med-Gemini foi testado em 14 benchmarks médicos e estabeleceu um novo padrão de excelência (SoTA) em dez, superando a família de modelos GPT-4 em todos os benchmarks. 

No benchmark MedQA (USMLE), o Med-Gemini alcançou 91,1% de precisão usando sua estratégia de busca guiada por incerteza, superando o LLM médico anterior do Google, o Med-PaLM 2, por 4,5%.

Em sete benchmarks multimodais, incluindo o desafio de imagens do New England Journal of Medicine (NEJM) (imagens de casos clínicos desafiadores dos quais um diagnóstico é feito a partir de uma lista de dez), o Med-Gemini teve um desempenho melhor do que o GPT-4 por uma margem relativa média de 44,5%.

“Embora os resultados sejam promissores, pesquisas adicionais significativas são necessárias”, escreveram os pesquisadores. “Por exemplo, não consideramos restringir os resultados da pesquisa a fontes médicas mais autoritárias, usando recuperação de pesquisa multimodal ou análise de precisão e relevância dos resultados da pesquisa e a qualidade das citações. Além disso, ainda resta ver se LLMs menores também podem ser ensinados a fazer uso da pesquisa na web. Deixamos essas explorações para trabalhos futuros.”

Garimpagem de informações em prontuários extensos

(Imagem: Antonio Marca/Shutterstock)

Prontuários eletrônicos de saúde (EHRs) podem ser longos, mas os médicos precisam estar cientes do que eles contêm. E os documentos geralmente contêm similaridades textuais, erros de ortografia, acrônimos e sinônimos. Ou seja, elementos que podem confundir a IA.

Para testar a capacidade do Med-Gemini de entender e raciocinar a partir de informações médicas de contexto longo, os pesquisadores realizaram uma tarefa chamada “agulha no palheiro” usando um grande banco de dados público, o Medical Information Mart for Intensive Care (MIMIC-III).

O objetivo era que o modelo recuperasse a menção relevante de uma condição médica rara e sutil, sintoma ou procedimento (a “agulha”) numa grande coleção de notas clínicas no EHR (o “palheiro”).

(Imagem: LALAKA/Shutterstock)

Ao todo, 200 exemplos foram selecionados. E cada exemplo consistia numa coleção de notas de EHR desidentificadas de 44 pacientes da UTI com longos históricos médicos.

A tarefa da “agulha no palheiro” tinha dois passos. Primeiro, o Med-Gemini precisava identificar as menções do problema médico especificado nos registros. Depois, o modelo tinha que avaliar a relevância de todas as menções, categorizá-las e concluir se o paciente tinha um histórico daquele problema, fornecendo um raciocínio claro para sua decisão.

Comparado ao método SoTA, o Med-Gemini teve um bom desempenho na tarefa. A IA do Google obteve 0.77 em precisão comparado ao método SoTA (0.85).

“Provavelmente o aspecto mais notável do Med-Gemini são as capacidades de processamento de longo contexto porque elas abrem novas fronteiras de desempenho e possibilidades de aplicação inéditas e anteriormente inviáveis para sistemas médicos de IA”, escreveram os pesquisadores.

Conversas com o Med-Gemini

Celular com logotipo do Gemini colocado sobre teclado de notebook
(Imagem: Rafapress/Shutterstock)

Num teste de utilidade no mundo real, o Med-Gemini foi questionado sobre um nódulo na pele com coceira por um usuário paciente. 

Após solicitar uma imagem, o modelo fez perguntas de acompanhamento apropriadas e diagnosticou corretamente a lesão rara, recomendando o que o usuário deveria fazer em seguida.

O Med-Gemini também foi solicitado a interpretar um raio-X de tórax para um médico enquanto eles esperavam por um relatório formal de radiologista e formular uma versão do relatório em inglês claro que poderia ser fornecida ao paciente.

“As capacidades de conversação multimodal do Med-Gemini-M 1.5 são promissoras, dado que são alcançadas sem nenhum ajuste fino específico de diálogo médico”, escreveram os pesquisadores. “Tais capacidades permitem interações contínuas e naturais entre pessoas, clínicos e sistemas de IA.”

No entanto, os pesquisadores reconhecem que mais trabalho é necessário.

Pesquisadores exploram próximos passos do Med-Gemini

(Imagem: metamorworks/Shutterstock)

Os pesquisadores reconhecem que há muito mais trabalho a ser feito. Eles planejam incorporar princípios de IA responsável, incluindo privacidade e equidade, em todo o processo de desenvolvimento do modelo.

“Considerações de privacidade, em particular, precisam estar enraizadas nas políticas e regulamentações de saúde existentes que governam e protegem as informações dos pacientes”, escreveram os pesquisadores. 

Eles acrescentaram: “A equidade é outra área que pode requerer atenção, pois há o risco de que os sistemas de IA na saúde possam refletir ou amplificar involuntariamente vieses históricos e desigualdades, potencialmente levando a desempenho desigual do modelo e resultados prejudiciais para grupos marginalizados.”

No entanto, em última análise, o Med-Gemini é visto como uma ferramenta para o bem. “Modelos de linguagem multimodal de grande porte inauguram uma nova era de possibilidades para a saúde e medicina”, afirmaram os pesquisadores.

Pedro Spadoni
Redator(a)

Pedro Spadoni é jornalista formado pela Universidade Metodista de Piracicaba (Unimep). Já escreveu para sites, revistas e até um jornal. No Olhar Digital, escreve sobre (quase) tudo.