Nesta segunda-feira (3), pesquisadores da Microsoft apresentaram o Kosmos-1, um modelo multimodal de inteligência artificial capaz de analisar imagens em busca de conteúdo, resolver quebra-cabeças visuais, realizar reconhecimento visual de texto, passar em testes de QI visual e entender instruções de linguagem natural.

  • A Microsoft apresentou Kosmos-1, um modelo multimodal especializado em imagens
  • Pesquisadores acreditam que a IA multimodal é um passo fundamental para a construção de uma AI que execute tarefas em nível humano
  • Apesar de ser parceira da OpenAI, o Kosmos-1 parece ser um projeto apenas da Microsoft

Os pesquisadores acreditam que a inteligência artificial multimodal – que integra diferentes modos de entrada, como texto, áudio, imagens e vídeo – é um passo fundamental para a construção de inteligência geral artificial (AGI) que pode executar tarefas gerais no nível humano.

Leia mais:

Sendo uma parte básica da inteligência, a percepção multimodal é uma necessidade para alcançar a inteligência geral artificial, em termos de aquisição de conhecimento e fundamentação no mundo real.

Pesquisadores no artigo Language Is Not All You Need: Aligning Perception with Language Models

Exemplos visuais do artigo do Kosmos-1 mostram o modelo analisando imagens e respondendo a perguntas sobre elas, lendo o texto de uma imagem, escrevendo legendas para imagens e fazendo um teste de QI visual com precisão de 22 a 26 por cento.

publicidade
microsoft inteligência artificial
Kosmos-1 resolve um quebra-cabeça visual. Imagem: Microsoft

Enquanto a mídia fervilha com notícias sobre grandes modelos de linguagem (LLM), alguns especialistas em IA apontam para a IA multimodal como um caminho potencial para a inteligência artificial geral, uma tecnologia hipotética que ostensivamente será capaz de substituir os humanos em qualquer tarefa intelectual. AGI é o objetivo declarado da OpenAI, um importante parceiro de negócios da Microsoft no espaço de IA.

Nesse caso, o Kosmos-1 parece ser puramente um projeto da Microsoft, sem o envolvimento da OpenAI. Os pesquisadores chamam sua criação de “modelo de linguagem grande multimodal” (MLLM) porque suas raízes estão no processamento de linguagem natural, como um LLM somente de texto, como o ChatGPT.

Para o Kosmos-1 aceitar entrada de imagem, os pesquisadores devem primeiro traduzir a imagem em uma série especial de tokens que o LLM possa entender. O artigo Kosmos-1 descreve isso com mais detalhes.

Para o formato de entrada, achatamos a entrada como uma sequência decorada com tokens especiais. Especificamente, usamos e para denotar o início e o fim da sequência. Os tokens especiais e indicam o início e o fim das incorporações de imagens codificadas.

… Um módulo de incorporação é usado para codificar tokens de texto e outras modalidades de entrada em vetores. Em seguida, as incorporações são alimentadas no decodificador. Para tokens de entrada, usamos uma tabela de pesquisa para mapeá-los em incorporações. Para as modalidades de sinais contínuos (por exemplo, imagem e áudio), também é viável representar entradas como código discreto e então considerá-las como “línguas estrangeiras”.

Trecho do artigo que apresenta o Kosmos-1
microsoft inteligência artificial
Kosmos-1 sendo testado. Imagem: Microsoft

A Microsoft treinou o Kosmos-1 usando dados da web. Após o treinamento, eles avaliaram as habilidades do Kosmos-1 em vários testes. Em muitos desses testes, o Kosmos-1 superou os modelos atuais de última geração, de acordo com a Microsoft.

Embora o Kosmos-1 represente os primeiros passos no domínio multimodal, é fácil imaginar que otimizações futuras possam trazer resultados ainda mais significativos, permitindo que modelos de IA percebam qualquer forma de mídia e atuem sobre ela, o que aumentará muito as habilidades dos assistentes artificiais. No futuro, os pesquisadores dizem que gostariam de aumentar o Kosmos-1 em tamanho de modelo e também integrar a capacidade de fala.

A Microsoft diz que planeja disponibilizar o Kosmos-1 para os desenvolvedores.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!