Sistemas do Google agora identificam a pessoa mais importante em uma foto

Redação29/06/2016 14h43, atualizada em 09/11/2022 20h49
20151223103211
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Os sistemas de inteligência artificial do Google estão cada vez mais inteligentes. Nesta semana, pequisadores da empresa afirmaram que conseguiram ensinar os computadores a detectar quem é a pessoa mais importante de uma imagem. Além disso, os sistemas também detectar partes individuais do corpo e descrever aquilo que estão vendo, em uma linguagem tão boa quanto a humana.

A primeira habilidade, desenvolvida em colaboração com a universidade de Stanford, foi testada em fotos de jogos de basquete, que contém dezenas ou até centenas de pessoas. O sistema de controle de visão usa uma rede neural para criar uma “máscara de atenção”, controlando a relevância de cada objeto ou pessoa.
Depois de alguns treinos, o sistema é capaz de reconhecer não só o ator mais importante da cena, como os potenciais atores importantes e os eventos a eles associados.

Os pesquisadores criaram, em parceria com a universidade de Edimburgo, um sistema para identificar partes separadas de uma imagem. Nos testes, o sistema foi treinado para detectar as pernas de tigres mesmo quando elas se movimentam de maneiras diferentes e separadamente.
Na prática, isso significa que em breve os computadores poderão rastrear partes individuais de determinada pessoa, o que pode, por exemplo, ajudar a identificar criminosos apenas por partes de seu corpo.

A terceira novidade é uma capacidade que já conhecemos. Há algum tempo os sistemas já conseguem classificar aquilo que enxergam: uma pessoa, um carro, um vaso. Apesar da tecnologia já existir, nem sempre ela é exata.

O novo trabalho, em parceria com a UCL, permite que o computador identifique os objetos de maneira mais detalhada. Algo como “o homem que toma o sorvete vermelho está se sentando”.
Para isso, o computador procura descrições disponíveis para os objetos existentes na cena e encontra uma combinação deles.

Via TechCrunch

Redator(a)

Redação é redator(a) no Olhar Digital