O que é a IA multimodal e para que ela serve?

Esta IA processa informações de diferentes modalidades, incluindo imagens, vídeos e texto
Por Camila Oliveira, editado por Layse Ventura 12/12/2024 08h20
Cérebro com os dizeres
Imagem: Anggalih Prasetya/Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

O lançamento do ChatGPT pela OpenAI em 2022 marcou o início da revolução da IA generativa, que assim como outras ferramentas do tipo, se baseia em modelos de linguagens grandes (LLMs). Elas foram projetadas para processar entradas de textos dos usuários, para gerar saídas de texto, sendo consideradas ferramentas de IA unimodais.

Ofertas

Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
Vendido por Amazon
Pasta Sanfonada DAC A4 Com 12 Divisões All Black Preto
De: R$ 27,90
Por: R$ 22,59
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
Vendido por Amazon
Carregador Fonte para Notebook Asus 19V 2.37A 45W com Pino Fino 4.0x1.35mm, compatível com VivoBook X543ua X543ma X515 X512 X510U ZenBook 14 UX433FA UX431FA X512F, referência Ad2108020 bivolt
De: R$ 67,44
Por: R$ 59,95
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Venu 3 Branco 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 4.699,00
Por: R$ 3.099,00
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
Vendido por Amazon
eufy HomeBase3, Câmera de segurança, Reconhecimento Facial por IA, Armazenamento Local Expansível até 16TB, Criptografia Avançada, Ecossistema de Segurança eufy, Sem taxas mensais
De: R$ 1.049,00
Por: R$ 799,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech POP Icon com Teclas e Botões Personalizáveis, Clique Silencioso, Easy-Switch para até 3 dispositivos e Conexão Bluetooth - Grafite
De: R$ 499,90
Por: R$ 349,90
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
Vendido por Amazon
eufy Câmera S330 (eufyCam 3) 2-Cam Kit por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Painel Solar, Forever Power, Reconhecimento Facial IA, Armazenamento Local Até 16TB, Sem Taxa Mensal
De: R$ 2.399,00
Por: R$ 2.159,00
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
Vendido por Amazon
WB Smart Tag Localizador Bluetooth, Rastreador Compatível com o Apple Find My, bateria substituível, Localizador de itens para bolsas
De: R$ 88,00
Por: R$ 45,00
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
Vendido por Amazon
Anker Nano Carregador Portátil, Power Bank Compacto 10000mAh 45W Máx., Bateria Portátil Essencial para Viagens com Cabo Retrátil InstaCord de 70 cm para iPhone 17/16 Series, iPad, Galaxy, Pixel e Mais
De: R$ 399,00
Por: R$ 379,00
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
Vendido por Amazon
Capa com Teclado Combo Touch para iPad (10ª geração e A16) Com Teclado Retroiluminado Destacável com Suporte, Trackpad Preciso e Tecnologia Smart Connector - Cinza
De: R$ 1.629,90
Por: R$ 1.239,90
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
Vendido por Amazon
ULANZI VL-200Bi 200W luz de estúdio bicolor, luz de preenchimento COB, iluminação de saída contínua com controle de APP, 2700K-6500K, 6 cenas, montagem Bowens
De: R$ 1.179,00
Por: R$ 943,20
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
Vendido por Amazon
eufy Câmera S350, Camera de Segurança Wi-Fi, 4K Inteligente com Câmera Dupla, Visão 360°, Zoom 8×, Visão Noturna, Babá Eletrônica, Rastreamento por IA, Compatível com Alexa e HomeBase 3
De: R$ 999,00
Por: R$ 798,99
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
Vendido por Amazon
WAAW By ALOK Fone de Ouvido Bluetooth SENSE 310 Com Cancelamento de Ruído e Assistente de Voz, 30h de Bateria
De: R$ 329,90
Por: R$ 205,91
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
Vendido por Amazon
WAAW by ALOK Caixa de Som US 200SB DUO Bluetooth 2 em 1, Resistente à Água, Acabamento Metálico, TWS, 20W RMS
De: R$ 599,90
Por: R$ 476,10
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
Vendido por Amazon
Eufy Cam E340 Câmera De Segurança Wi-Fi Dual Band (2.4/5GHz) Exterior, 360° PTZ, Gravação 24/7, 2000 Lúmens, Detecção de Movimento + Sirene Integrada, Câmera Dupla, Sem Taxa Mensal, Branco
De: R$ 1.199,00
Por: R$ 1.139,05
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Cis Cola Em Bastão Fix 34 Gramas, Blister
Vendido por Amazon
Cis Cola Em Bastão Fix 34 Gramas, Blister
De: R$ 9,60
Por: R$ 7,60
Estojo Escolar Organizador Box Grande Para Lapis Feminino Masculino Material Escolar (Azul)
Vendido por Amazon
Estojo Escolar Organizador Box Grande Para Lapis Feminino Masculino Material Escolar (Azul)
Por R$ 38,70
Compasso Escolar 106-S, CIS, 18.7700, Estojo c/1 sortido (Não é possível escolher cor)
Vendido por Amazon
Compasso Escolar 106-S, CIS, 18.7700, Estojo c/1 sortido (Não é possível escolher cor)
De: R$ 31,40
Por: R$ 21,77
Ecolapis Cor Pastel F.Castell 10 Cores, Faber-Castell, 120510P, Multicor, pacote de 10
Vendido por Amazon
Ecolapis Cor Pastel F.Castell 10 Cores, Faber-Castell, 120510P, Multicor, pacote de 10
De: R$ 21,00
Por: R$ 16,63
Tilibra - Estojo Box Académie Cinza
Vendido por Amazon
Tilibra - Estojo Box Académie Cinza
De: R$ 106,90
Por: R$ 59,95
Estojo Escolar Box Grande Organizador com Divisórias e Alça - Estojo Necessaire Unissex Capacidade Ampla para Lápis, Canetas, Material Escolar (Preto)
Vendido por Amazon
Estojo Escolar Box Grande Organizador com Divisórias e Alça - Estojo Necessaire Unissex Capacidade Ampla para Lápis, Canetas, Material Escolar (Preto)
Por R$ 34,90
Chamequinho Papel A4, 75 g, 100 Folhas, Verde Sulfite
Vendido por Amazon
Chamequinho Papel A4, 75 g, 100 Folhas, Verde Sulfite
De: R$ 9,90
Por: R$ 7,20
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
Vendido por Amazon
Combo Teclado e Mouse Sem Fio Logitech MK250 Bluetooth com Conectividade Rápida e Fácil, Design Compacto, Mouse Ambidestro, Layout ABNT2, Construção Durável, Compatível com PC e Mac - Rosa
De: R$ 169,90
Por: R$ 139,90
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
Vendido por Amazon
Combo Teclado e Mouse sem fio Logitech MK235 com Conexão USB, Pilhas Inclusas e Layout ABNT2
De: R$ 149,90
Por: R$ 119,90
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
Vendido por Amazon
Anker MagGo Power Bank, Carregador Portátil com Certificação Qi2 de 15W, Compatível com MagSafe, 10.000mAh, Tela Inteligente e Suporte Dobrável, para iPhone 17/15/14/13/12, Inclui Cabo USB-C, Branco
De: R$ 699,00
Por: R$ 398,99
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
Vendido por Amazon
Mouse Sem Fio Logitech M330 SILENT com Clique Silencioso, Design Destro, Bateria de 18 Meses, Receptor USB, Compatível com Windows, macOS, ChromeOS e Pilha Inclusa - Preto
De: R$ 109,90
Por: R$ 79,90
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
Vendido por Amazon
Webcam Full HD Logitech Brio 100 com Microfone Integrado, Proteção de Privacidade, Correção Automática de Luz e Conexão USB-C - Grafite
De: R$ 299,90
Por: R$ 199,90

Agora, o futuro da Inteligência Artificial está voltada para a aprendizagem multimodal, sendo uma das tendências mais promissoras da revolução da IA atual. Os modelos de IA generativa multimodal conseguem combinar diversos tipos de entradas, criando uma saída que também pode incluir vários tipos.

Leia mais:

Porém, você sabe o que é IA multimodal? Preparamos uma matéria para explicar o que é, qual a diferença para a IA generativa já conhecida e quais suas utilizações. Confira abaixo!

O que é a IA multimodal?

Uma Inteligência Artificial multimodal é um modelo de ML (machine learning) capaz de processar informações de diferentes modalidades, incluindo imagens, vídeos, sons e textos. Quando essas diferentes fontes de informação são combinadas, a IA pode analisar contextos mais complexos, oferecendo soluções mais ricas e detalhadas

Um exemplo desse tipo de IA é o Gemini, um modelo multimodal do Google, que pode, por exemplo, receber uma foto de um prato de biscoitos e gerar uma receita escrita como resposta, e vice-versa.

Os modelos de IA generativa multimodal acrescentam mais complexidade aos LLMs de última geração, modelos baseados em um tipo de arquitetura neural chamado Transformer. Os transformadores são desenvolvidos por pesquisadores do Google, dependendo da arquitetura codificador-decodificador e do mecanismo de atenção para permitir o processamento eficaz dos dados.

IA modal vs multimodal
Imagem: montagem com ilustrações do Creative_Captian / Shutterstock

A IA multimodal tem como base as técnicas de fusão de dados para integrar tipos diferentes de dados, criando uma compreensão mais completa e precisa dos dados. O objetivo final é ter previsões melhores ao combinar as informações complementares que as diferentes modalidades de dados fornecem.

Diferenças entre IA generativa e IA multimodal

IA generativa se trata de um termo que abrange diversos modelos de ML, criando novos conteúdos como textos, imagens, músicas, áudios e vídeos, geralmente seguindo um comando de um único tipo.

Também chamada de GenAI, ela foca na criação de novos conteúdos a partir de exemplos existentes. Mesmo sendo competente, a IA generativa geralmente opera em um único tipo de dado por vez.

Enquanto isso, a IA multimodal expande esses recursos generativos, conseguindo processar informações de diversas modalidades. A multimodalidade é considerada uma atividade que confere à IA a capacidade de processar e entender vários modos sensoriais.

ia multimodal na prática
Neste exemplo, o usuário pede uma receita de cookies a partir de uma imagem como base e o Gemini é capaz de entregar um passo a passo. Imagem: Google Cloud / Divulgação

Ela não só analisa, como também integra diferentes tipos de dados, permitindo a combinação de diferentes tipos de dados e uma compreensão mais ampla e detalhada. A IA multimodal pode entender e contextualizar situações complexas, usando várias formas de dados simultaneamente.

Isso significa, de forma prática, que os usuários não estão limitados a uma entrada e um tipo de saída, podendo solicitar que um modelo com praticamente qualquer entrada crie quase qualquer tipo de conteúdo.

Para que serve a IA multimodal?

A IA multimodal é capaz de combinara diferentes tipos de dados, como texto, imagens e som, criando uma compreensão mais abrangente das informações. Um exemplo de uso é uma IA multimodal que analisa um vídeo entendendo as palavras faladas e os objetos nele, além de ler qualquer texto que apareça na tela.

Essa forma de Inteligência Artificial avançada é usada em áreas como veículos autônomos, onde o entendimento e a interpretação de vários tipos de dados de forma simultânea é importante para uma operação segura.

Imagem de IA e outros ícones sendo tocados por um dedo humano
Imagem: NicoElNino/Shutterstock

Outro exemplo é em uma aplicação de diagnóstico médico, no qual a IA multimodal pode combinar informações de imagem (como radiografias) com dados textuais (como o histórico médico), oferecendo diagnósticos mais precisos.

Isso porque o aprendizado multimodal faz com que as máquinas tenham novos “sentidos”, o que aumenta sua precisão e capacidade de interpretação. Essas caraterísticas podem abrir portas para diversos novos aplicativos em setores da indústria, incluindo:

  • IA generativa aumentada;
  • Carros autônomos;
  • Biomedicina;
  • Ciências da Terra e mudanças climáticas.

Riscos da IA multimodal

Assim como toda nova tecnologia, há diversos desafios em potencial que teremos de enfrentar com os modelos de IA multimodais. Alguns deles são:

  • Falta de transparência;
  • Monopólio de IA multimodal;
  • Preconceito e discriminação;
  • Questões de privacidade;
  • Considerações éticas;
  • Considerações ambientais.
inteligencia artificial
Imagem: Anggalih Prasetya/Shutterstock
Camila Oliveira
Colaboração para o Olhar Digital

Camila Oliveira é jornalista desde 2012. Curiosa e inquieta, já passou por diversas editorias e também trabalhou em outras áreas. Hoje é colaboradora do Olhar Digital e escreve sobre o que mais gosta.

Layse Ventura
Editor(a) SEO

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.