A Microsoft lançou o Phi-3-vision, uma nova versão de seu modelo de linguagem pequeno, Phi-3, projetado para interpretar e analisar imagens. Este modelo, parte da série Phi-3, pode realizar tarefas de raciocínio visual, como responder a perguntas sobre imagens e gráficos, e seu tamanho reduzido o torna altamente adequado para dispositivos móveis.

Principais recursos do Phi-3-vision

  • O Phi-3-vision é um modelo multimodal da Microsoft, o que significa que pode processar tanto texto quanto imagens.
  • Ele possui 4,2 bilhões de parâmetros, indicando sua complexidade e a profundidade de seu treinamento.
  • Apesar de suas capacidades, o Phi-3-vision é significativamente menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI ou o Stable Diffusion da Stability AI.
  • Diferentemente desses modelos, que geram imagens, o Phi-3-vision se destaca em entender e analisar imagens existentes.

Leia mais:

publicidade

Tendências no desenvolvimento de modelos de IA na Microsoft

O lançamento de modelos de IA pequenos e eficientes, como o Phi-3-vision, está alinhado com uma demanda crescente por soluções de IA mais econômicas e menos intensivas em recursos. Esses modelos permitem recursos avançados de IA em uma gama mais ampla de dispositivos, sem exigir grande poder de computação ou memória.

Além do Phi-3, a Microsoft desenvolveu outros modelos compactos, incluindo o Orca-Math, que supera modelos maiores, como o Gemini Pro do Google, na resolução de problemas matemáticos.

publicidade

Disponibilidade

O Phi-3-vision está atualmente disponível para visualização prévia, enquanto os outros modelos da família Phi-3 — Phi-3-mini, Phi-3-small e Phi-3-medium — podem ser acessados através da biblioteca de modelos do Azure.

A família de modelos Phi-3

A Microsoft introduziu inicialmente a série Phi-3 em abril com o lançamento do Phi-3-mini, o menor modelo da série com 3,8 bilhões de parâmetros. A família também inclui o Phi-3-small, com 7 bilhões de parâmetros, e o Phi-3-medium, com 14 bilhões de parâmetros.

publicidade

Esses modelos são projetados para oferecer alto desempenho, sendo leves e adequados para uso em dispositivos com recursos computacionais limitados, como smartphones e laptops.