Siga o Olhar Digital no Google Discover
Milhões de pessoas se comunicam usando a linguagem de sinais, mas até agora os projetos para capturar os gestos complexos e traduzi-los para a fala verbal tiveram pouco sucesso. No entanto, o Google está encabeçando um novo avanço no rastreamento de mão em tempo real. A nova técnica usa alguns atalhos inteligentes e a crescente eficiência dos sistemas de inteligência artificial para produzir, em tempo real, um mapa altamente preciso da mão e de todos os seus dedos, utilizando apenas um smartphone.
Ofertas
Por: R$ 8,28
Por: R$ 1.998,89
Por: R$ 2.498,89
Por: R$ 404,90
Por: R$ 129,90
Por: R$ 412,69
Por: R$ 593,00
Por: R$ 3.598,94
Por: R$ 499,00
Por: R$ 369,00
Por: R$ 1.616,02
Por: R$ 179,90
Por: R$ 2.759,00
Por: R$ 199,00
Por: R$ 166,19
Por: R$ 399,00
Por: R$ 132,00
Por: R$ 505,00
“Enquanto as abordagens atuais de ponta se baseiam principalmente em poderosos desktops de inferência, nosso método alcança desempenho em tempo real em um telefone celular e até mesmo se adapta a várias mãos”, escrevem os pesquisadores do Google Valentin Bazarevsky e Fan Zhang em um blog. Eles dizem ainda que a percepção da mão em tempo real é uma tarefa de visão computacional decididamente desafiadora, pois elas geralmente se ocludem uma às outras e não apresentam padrão de alto contraste.
Não apenas isso, mas os movimentos das mãos geralmente são rápidos, sutis ou ambos – não necessariamente o tipo de coisa que os computadores são bons em capturar em tempo real. Basicamente, é muito difícil fazer o certo, e fazer o certo é difícil de fazer rápido. Por isso os pesquisadores, neste caso, pensaram em reduzir a quantidade de dados que os algoritmos precisavam filtrar. Menos dados significa um retorno mais rápido.
Como funciona o sistema?
Por um lado, os pesquisadores abandonaram a ideia de ter um sistema para detectar a posição e o tamanho da mão. Em vez disso, eles só têm o sistema para encontrar a palma, que não é apenas a parte mais distinta da mão, mas é quadrada, para inicializar, o que significa que eles não precisavam se preocupar com a capacidade do sistema de reconhecer imagens com diferentes formatos.
Uma vez que a palma da mão é reconhecida, os dedos brotam de uma das pontas e podem ser analisados separadamente. Um algoritmo separado olha para a imagem e atribui 21 coordenadas a ela, demarcando as articulações e as pontas dos dedos, e incluindo uma ideia de suas larguras.
Para o reconhecimento, primeiro é necessário adicionar manualmente esses 21 pontos a cerca de 30 mil imagens de mãos em várias poses e situações de iluminação para o sistema de aprendizado de máquina captar e aprender. Uma vez determinada a pose da mão, ela é comparada a um monte de gestos conhecidos, desde símbolos da linguagem de sinais a letras e números, até coisas como “paz” e “metal”. O resultado é um algoritmo de reconhecimento manual rápido e preciso, executado em um smartphone normal. E tudo funciona dentro da estrutura do MediaPipe (é uma estrutura baseada em gráficos para a construção de pipelines de aprendizado de máquina multimodal (vídeo, áudio e sensor) aplicados).
O que se espera para o futuro?
Com sorte, outros pesquisadores serão capazes de pegar o material e melhorar os sistemas existentes para fazer o tipo de reconhecimento de mão necessário para reconhecer gestos. No entanto, é muito difícil entender realmente a linguagem de sinais, que usa as duas mãos, expressões faciais e outras sugestões para produzir um modo rico de comunicação diferente de qualquer outro.
Como a tecnologia ainda não foi aplicada a nenhum produto do Google, os pesquisadores puderam oferecer o código-fonte do trabalho gratuitamente, para qualquer um explorar. “Esperamos que o fornecimento dessa funcionalidade de percepção da mão para a comunidade de pesquisa e desenvolvimento resulte em um crescimento de uso criativo, estimulando novas aplicações e novos caminhos de pesquisa”, afirmaram os pesquisadores.
Fonte: TechCrunch