Alibaba lança novos modelos de IA capazes de entender imagens

A empresa chinesa de tecnologia lançou mais dois modelos de inteligência artificial que compreendem melhor imagens e textos
Por William Schendes, editado por Bruno Capozzi 25/08/2023 12h44
Alibaba
(Imagem: hxdbzxy/ Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A Alibaba lançou nesta sexta-feira (25) seus novos modelos de inteligência artificial de código aberto capazes de compreender imagens e textos complexos.

O que você precisa saber:

  • O Qwen-VL é descrito pela empresa como um “modelo de linguagem de visão grande pré-treinado”, enquanto o Qwen-VL-Chat é um “modelo de conversação aprimorada”;
  • Segundo o comunicado, o Qwen-VL pode ser aproveitado, por exemplo, para “gerar legendas de fotos para meios de comunicação ou ajudar quem não fala chinês a ler as placas de rua na língua”;
  • Enquanto isso, o Qwen-VL-Chat pode ser usado para interações mais complexas, como criar histórias, imagens com base em fotos e resolver equações matemáticas de uma imagem;
  • As IAs já podem ser baixadas pela comunidade de modelos de IA do Alibaba Cloud, ModelScope (uma plataforma que concentra centenas de modelos de IA) e na Hugging Face (biblioteca de modelos de aprendizado de máquina);
  • Como ressalta a CNBC, por serem dois modelos de código aberto, pesquisadores, acadêmicos e diversas empresas poderão usá-los para criar seus próprios produtos de IA, sem precisar treinar seus algoritmos.

De acordo com a Alibaba, o Qwen-VL e Qwen-VL-Chat são treinados com os 7 bilhões de parâmetros de seu principal modelo de linguagem amplo (LLM, na sigla em inglês), o Tongyi Qianwen AI.

Leia mais: 

A diferença entre os modelos, segundo a empresa, é que o Qwen-VL pode compreender imagens de resolução mais alta, facilitando um melhor reconhecimento dos conteúdos.

Conheça o Qwen-7B e Qwen-7B-Chat

No início de agosto, a Alibaba lançou o Qwen-7B e Qwen-7B-Chat, dois modelos de linguagem amplos de código aberto para rivalizar com o Llma 2 da Meta;

  • Os dois modelos contam com sete bilhões de parâmetros — indicador usado para medir o poder dessa tecnologia;
  • O Qwen-7B-Chat é uma versão projetada para ser usada em aplicativos de conversação;
  • O modelo poderá ser usado por pesquisadores, acadêmicos e empresas para criar seus próprios aplicativos de IA generativa;
  • “Código, os pesos do modelo e a documentação dos dois modelos serão de livre acesso para acadêmicos, pesquisadores e instituições comerciais em todo o mundo”, disse a empresa em comunicado;
  • Empresas com mais de 100 milhões de usuários ativos mensais exigirão uma licença da Alibaba para utilizar os modelos.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

Jornalista em formação pela Universidade Metodista de São Paulo (UMESP). Mesmo com alguns assuntos negativos, gosta ficar atualizado e noticiar sobre diferentes temas da tecnologia.

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.