Google libera algoritmo que descreve imagens com 94% de precisão

Redação23/09/2016 14h59
20160923124123
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

O Google anunciou hoje que disponibilizará em código aberto o seu algoritmo “Show and Tell”, por meio do qual máquinas podem aprender a gerar legendas descritivas para imagens. O código do algoritmo já está disponível no GitHub como um modelo do TensorFlow, a ferramenta de treinamento de redes neurais que o Google disponibilizou recentemente.

Ofertas

Patriot Viper Gaming V570 RGB Blackout Edition Pro Laser Mouse até 12.000 Dpi
Vendido por Amazon
Patriot Viper Gaming V570 RGB Blackout Edition Pro Laser Mouse até 12.000 Dpi
Por R$ 99,00
soundcore Q20i da Anker, Fone de Ouvido Bluetooth com Cancelamento de Ruído Híbrido Ativo, Headphone Sem Fio, 60h Bateria, Áudio Hi-Res, Graves Potentes, App Personalização, Modo Transparência, Azul
Vendido por Amazon
soundcore Q20i da Anker, Fone de Ouvido Bluetooth com Cancelamento de Ruído Híbrido Ativo, Headphone Sem Fio, 60h Bateria, Áudio Hi-Res, Graves Potentes, App Personalização, Modo Transparência, Azul
Por R$ 311,29
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Rosa)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Rosa)
De: R$ 299,00
Por: R$ 241,44
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (preto)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (preto)
De: R$ 299,00
Por: R$ 241,44
Smart TV TCL 43 Polegadas LED Full HD S5400A Android TV WiFi Bluetooth Google Assistente 43S5400A
Vendido por Amazon
Smart TV TCL 43 Polegadas LED Full HD S5400A Android TV WiFi Bluetooth Google Assistente 43S5400A
De: R$ 1.899,00
Por: R$ 1.449,99
Garmin Relógio Instinct 3 Verde 45mm com Monitor Cardíaco de Pulso e GPS
Vendido por Amazon
Garmin Relógio Instinct 3 Verde 45mm com Monitor Cardíaco de Pulso e GPS
De: R$ 5.899,00
Por: R$ 3.799,00
SEMP SMART TV 55” 55S62 4K UHD GOOGLE TV
Vendido por Amazon
SEMP SMART TV 55” 55S62 4K UHD GOOGLE TV
De: R$ 2.499,00
Por: R$ 1.999,99
Anker Laptop Power Bank, 25.000mAh Carregador Portátil para Notebook, 3-Portas 100W USB-C, Cabos Retráteis Integrados, Aprovado para Viagens Aéreas, Compatível com iPhone 17, Samsung e Mais
Vendido por Amazon
Anker Laptop Power Bank, 25.000mAh Carregador Portátil para Notebook, 3-Portas 100W USB-C, Cabos Retráteis Integrados, Aprovado para Viagens Aéreas, Compatível com iPhone 17, Samsung e Mais
De: R$ 1.199,00
Por: R$ 999,00
soundcore AeroClip da Anker, Fones de Ouvido Blutooth Abertos, Clip-On, Conforto Adaptativo, Chamadas Claras com 4 Microfones e IA, Ajuste Estável, Drivers de 12mm para Graves Potentes, Rosa
Vendido por Amazon
soundcore AeroClip da Anker, Fones de Ouvido Blutooth Abertos, Clip-On, Conforto Adaptativo, Chamadas Claras com 4 Microfones e IA, Ajuste Estável, Drivers de 12mm para Graves Potentes, Rosa
De: R$ 1.199,00
Por: R$ 889,00
Mouse sem fio Logitech Pebble 2 M350s com Clique Silencioso, Design Slim Ambidestro, Conexão Bluetooth e Pilha Inclusa - Rosa
Vendido por Amazon
Mouse sem fio Logitech Pebble 2 M350s com Clique Silencioso, Design Slim Ambidestro, Conexão Bluetooth e Pilha Inclusa - Rosa
De: R$ 123,90
Por: R$ 79,90
Mouse Sem Fio Logitech M240 com Conexão Bluetooth, Clique Silencioso, Design Ambidestro Compacto, Bateria de 18 Meses, Compatível com Windows, macOS, ChromeOS - Branco
Vendido por Amazon
Mouse Sem Fio Logitech M240 com Conexão Bluetooth, Clique Silencioso, Design Ambidestro Compacto, Bateria de 18 Meses, Compatível com Windows, macOS, ChromeOS - Branco
De: R$ 95,90
Por: R$ 59,90
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
Vendido por Amazon
Samsung Smart TV 75" Crystal UHD 4K U8100F 2025
De: R$ 5.299,99
Por: R$ 4.460,93
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
Vendido por Amazon
eufy Câmera S3 Pro Kit 2+1 por anker, Câmera De Segurança Wi-Fi Externa Sem Fio, 4K, Energia Solar, Visão Noturna MaxColor, Reconhecimento Facial por IA, Compatível com Alexa, Sem taxas mensais
De: R$ 3.499,00
Por: R$ 3.324,00
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
Vendido por Amazon
Bettdow SmartWatch, Relogio Smartwatch Feminino, 1.27" Ecrã tátil, à prova d'água IP68, 100+ Modos Esportivos, chamada Bluetooth, Compatível com Android iOS, voz por IA (Azul)
De: R$ 299,00
Por: R$ 241,44
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
Vendido por Amazon
soundcore Select 4 Go da Anker, Alto-Falante Bluetooth Portátil, 20H de Bateria, IP67 à Prova d'Água e Poeira, Flutuante, Som Potente, Ideal para Ambientes Internos, Externos e Passeios
De: R$ 339,00
Por: R$ 188,99
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
Vendido por Amazon
Novo Kindle Paperwhite Signature Edition (32 GB) - O Kindle mais rápido já lançado, com luz frontal autoadaptável, carregamento sem fio e bateria que dura semanas - Cor Preta Metálica
De: R$ 1.199,00
Por: R$ 949,00
Projetor BYINTEK U14 4K 1080P WiFi Smart Full HD Projetor, Foco Automático, 1250 ANSI Lumens, Totalmente Selado à Prova de Poeira, Alto-falante Integrado de 12 W, Home Theater móvel
Vendido por Amazon
Projetor BYINTEK U14 4K 1080P WiFi Smart Full HD Projetor, Foco Automático, 1250 ANSI Lumens, Totalmente Selado à Prova de Poeira, Alto-falante Integrado de 12 W, Home Theater móvel
De: R$ 1.799,00
Por: R$ 1.709,05

A principal função do “Show and Tell” é identificar objetos e ações que estejam acontecendo em fotografias para gerar, automaticamente, legendas descritivas para elas. Essas legendas, por sua vez, podem ser usadas para criar programas de acessibilidade para internautas com deficiências visuais ou para auxiliar outros pesquisadores de inteligência artificial, por exemplo.

Segundo a empresa, ele utiliza a terceira geração do módulo “Inception” de classificação de imagens para entender o que cada foto mostra. Com isso, além de compreender quais objetos a imagem contém, a inteligência artificial também é capaz de descrever a relação entre elas. Por exemplo, ela pode entender que um cachorro está correndo atrás de uma bolinha. Graças a esses recursos, ela é capaz de descrever imagens com 93,9% de precisão.

Reprodução

Com suas próprias palavras

Num primeiro momento, a rede neural precisa ser treinada com centeas de milhares de imagens já legendadas, com base nas quais ela aprende a identificar objetos. Após essa fase de treinamento, ela consegue reaproveitar as legendas escritas por humanos em fotos que tragam cenas semelhantes, como pode ser cisto na imagem acima (após receber as três fotos da esquerda, a rede produziu a legenda da foto da direita).

Entretanto, essa não é a única capacidade do “Show and Tell”. Após ser treinado com um número suficiente de imagens, ele consegue juntar elementos de fotos e legendas diferentes para criar suas próprias descrições para situações diferentes das que ele já viu. No exemplo abaixo, ele produziu a legenda da foto da direita (diferente das demais) após ser treinado com as fotos da esquerda.

Reprodução

Treino pesado

Para usar o sistema, no entanto, é necessário bastante tempo e poder computacional. Isso porque o modelo disponibilizado pelo Google exige que ele seja treinado pelo próprio usuário. Para isso, é necessário um computador com uma placa de vídeo especializada nesse tipo de tarefa. Essa versão, segundo o Google, consegue ainda ser 25% mais rápida por ciclo de treinamento que as anteriores.

Mesmo assim, o processo de treinamento ainda deve levar cerca de duas semanas, de acordo com o Engadget. No entanto, de acordo com o site, como o sistema foi dispoibilizado em código aberto, é possível que em breve uma versão já treinada seja disponibilizada na internet.

Redator(a)

Redação é redator(a) no Olhar Digital