A Nvidia apresentou nesta semana uma tecnologia chamada Omniverse Avatar, que é capaz de criar avatares tridimensionais, mesclando até mesmo aspectos do mundo virtual em partes do ambiente real. A plataforma tira proveito de diversas ferramentas utilizadas pela empresa, como fala sintética, ray tracing, inteligência artificial e rastreamento facial para criar os pequenos bonecos.

O anúncio aconteceu durante a apresentação de Jensen Huang, CEO da Nvidia, para a GTC deste ano, evento voltado para desenvolvedores que utilizam ferramentas da empresa, desde placas de vídeo dedicadas para este trabalho (e não para jogos), indo até tecnologias de software para lidar com objetos tridimensionais. Um deles nasce na recente Omniverse Avatar, que é um avatar virtual que tira proveito de inteligência artificial.

publicidade

Leia também

No exemplo oferecido pela própria Nvidia, um pequeno robô virtual atende clientes em um restaurante. Toda interação acontece por voz e o assistente virtual mantém contato visual com as pessoas, respondendo com fala bastante natural.

“A aurora dos assistentes virtuais inteligentes chegou”, comenta Jensen Huang. “O Omniverse Avatar combina os gráficos, a simulação e a IA básicos da NVIDIA para fazer algumas das aplicações em tempo real mais complexas já criadas. Os casos de uso de robôs colaborativos e assistentes virtuais são incríveis e de amplo alcance”.

Omniverse Avatar usa diversas ferramentas da Nvidia

Já outro exemplo envolve apenas o mundo virtual, sem uma tela ou a presença de hardware em local físico. Aqui um boneco representando Huang interagiu com três outras pessoas, em uma espécie de vídeo chamada.

A animação exibindo o boneco respeitou a iluminação e os reflexos de cada objeto na cena, com base em ray tracing, enquanto a voz foi gerada pelo sistema Nvidia Riva para criar fala natural. As respostas para as perguntas levaram em média dois segundos para serem criadas, todas com inteligência artificial. Ambas as demonstrações foram alimentadas pelo software Nvidia AI e pelo Megatron 530B, que é, atualmente, o maior modelo de linguagem customizável do mundo.

As recomendações de respostas foram gerenciadas pelo framework Merlin, que mescla deep learning com outros ajustes para tornar as falas mais naturais. Já a visão computacional, utilizada no exemplo do robô, tira proveito do Metropolis, também desenvolvido pela Nvidia.

Já assistiu aos nossos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!