DeepSeek: ‘Molho secreto’ da IA chinesa é revelado por pesquisadores da Apple

O DeepSeek é tão bom quanto o ChatGPT e foi bem mais barato de desenvolver; pesquisadores da Apple revelam segredo da IA chinesa
Pedro Spadoni29/01/2025 09h36
Celular com logotipo do DeepSeek na tela colocado sobre mesa de madeira rodeado de materiais de escritório como lápis e carregador
Logomarca da Deep Seek (Imagem: Poetra.RH/Shutterstock)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

O DeepSeek pegou usuários e mercado de inteligência artificial (IA) de surpresa nesta semana. O que surpreende na IA chinesa é uma combinação de fatores. Primeiro, ela aparentemente ser tão boa quanto seus rivais estadunidenses (ChatGPT, por exemplo). Segundo, seu desenvolvimento ter sido mais barato em comparação a modelos de IA dos EUA. Mas como isso é possível? Pesquisadores da Apple explicam.

Ofertas

Glamour Fashion Doll Dress Up Girl Makeup Games: Stylist Queen Makeover Challenge 2025
Vendido por Amazon
Glamour Fashion Doll Dress Up Girl Makeup Games: Stylist Queen Makeover Challenge 2025
Por R$ 38,38
Penalty Soccer: Real Football Striker Shootout & World Cup Match 3D Mini Football Challenge 2025
Vendido por Amazon
Penalty Soccer: Real Football Striker Shootout & World Cup Match 3D Mini Football Challenge 2025
Por R$ 38,38
Perfect Dream Hotel 3D: Bussness Management Empire Tycoon Master - Build Grand Hotel Simulation Games
Vendido por Amazon
Perfect Dream Hotel 3D: Bussness Management Empire Tycoon Master - Build Grand Hotel Simulation Games
Por R$ 38,38
TicTap Tap Craze Puzzle Master: Tick-Tock Puzzle Adventure - Desafio cerebral de toque viral Minijogos Diversão 3D
Vendido por Amazon
TicTap Tap Craze Puzzle Master: Tick-Tock Puzzle Adventure - Desafio cerebral de toque viral Minijogos Diversão 3D
Por R$ 44,09
Kit de Costura E Linhas Completo C/ 96 Peças, Kit Costura, Kit de Costura, Costura, Linha de Costura, Agulha de Costura, Costura Acessórios, Para Reparo Com Estojo Preto
Vendido por Amazon
Kit de Costura E Linhas Completo C/ 96 Peças, Kit Costura, Kit de Costura, Costura, Linha de Costura, Agulha de Costura, Costura Acessórios, Para Reparo Com Estojo Preto
De: R$ 49,99
Por: R$ 26,90
Caderneta Ciceros Clássica Sem Pauta 14X21 Vermelho Quente, Cicero
Vendido por Amazon
Caderneta Ciceros Clássica Sem Pauta 14X21 Vermelho Quente, Cicero
De: R$ 79,99
Por: R$ 49,80
Genérico Organizador Livreiro Padrão Moderno com 1 Prateleira para Sala, Escritório, Quarto, Cozinha, Madeira Preta
Vendido por Amazon
Genérico Organizador Livreiro Padrão Moderno com 1 Prateleira para Sala, Escritório, Quarto, Cozinha, Madeira Preta
De: R$ 252,99
Por: R$ 194,99
Estante 3 Prateleiras - Sapateira Organizadora, Prateleira Para Livros, Estante De Livros Multiuso Para Cozinha, Sala Ou Escritório
Vendido por Amazon
Estante 3 Prateleiras - Sapateira Organizadora, Prateleira Para Livros, Estante De Livros Multiuso Para Cozinha, Sala Ou Escritório
De: R$ 39,80
Por: R$ 28,31
Case Bolsa Estojo De Viagem Capa De Proteção Nintendo Switch - Preto
Vendido por Amazon
Case Bolsa Estojo De Viagem Capa De Proteção Nintendo Switch - Preto
Por R$ 49,00
Flying Rope Hero - Spider Fighter Superhero Action Games
Vendido por Amazon
Flying Rope Hero - Spider Fighter Superhero Action Games
Por R$ 91,47
Prisoner Transport Bus driver - Prisoner Bus Games
Vendido por Amazon
Prisoner Transport Bus driver - Prisoner Bus Games
Por R$ 80,59
Offroad Jeep Driving Simulator 3D - Ultimate 4x4 Offroad Mountain Driving Games
Vendido por Amazon
Offroad Jeep Driving Simulator 3D - Ultimate 4x4 Offroad Mountain Driving Games
Por R$ 79,95
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
Vendido por Amazon
Ar-Condicionado Split HW Elgin Eco Inverter II Wi-Fi 12.000 BTUs R-32 Quente/Frio 220V
Por R$ 2.869,00
Freezer Vertical Consul 231 Litros - CVU26FB 110V
Vendido por Amazon
Freezer Vertical Consul 231 Litros - CVU26FB 110V
Por R$ 3.257,90
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
Vendido por Amazon
WAP Ventilador de Torre AIR SILENCE com 4 Ní­veis de Velocidade, Time de até 15 Horas e Desligamento Automático 127V
De: R$ 599,90
Por: R$ 499,90
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
Vendido por Amazon
MONDIAL Ventilador de Mesa 40cm Super Power, Branco/Azul, 140W, 110V - VSP-40-W
De: R$ 189,90
Por: R$ 144,90
Climatizador de Ar Digital Midea 127V 60Hz
Vendido por Amazon
Climatizador de Ar Digital Midea 127V 60Hz
De: R$ 529,99
Por: R$ 412,69
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
Vendido por Amazon
Monitor Gamer IPS 24 Polegadas, Full HD, 180Hz, 1ms, HDR400, G-SYNC, 250cd/m², Alto-falantes embutidos, Entradas HDMI/DisplayPort/USB/3.5mm
De: R$ 799,00
Por: R$ 592,00
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
Vendido por Amazon
Câmera Digital EOS, Canon, Preto, 23 x 14 x 17 cm
De: R$ 3.799,00
Por: R$ 3.598,94
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
Vendido por Amazon
Câmera digital, vídeo de 5k, câmera de 75 megapixels, transmissão Wi-Fi, foco automático, zoom digital de 18x, tela giratória de 180 graus, cartão SD de 32G,câmera compacta,vlog,fotográfica
De: R$ 699,00
Por: R$ 499,00
PlayStation DualSense Controle sem fio – Branco
Vendido por Amazon
PlayStation DualSense Controle sem fio – Branco
De: R$ 499,90
Por: R$ 369,00
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
Vendido por Amazon
Robô Aspirador Liectroux XR500 Pro 3 em 1 Aspira Varre Passa Pano Com Aplicativo Compatível Com Alexa e Google Mapeamento Inteligente Salva os Mapas Bivolt
De: R$ 2.489,00
Por: R$ 1.616,02
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Vendido por Amazon
MONDIAL Ventilador de Parede 40cm Super Turbo 8 Pás, Preto/Prata, 140W, 110V - VTX-40P-8P
Por R$ 259,90
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
Vendido por Amazon
Notebook ASUS Vivobook 15 X1504VA Intel Core i5 1334U 8GB Ram 512GB SSD Windows 11 Tela 15,6" FHD Silver - NJ1740W
De: R$ 3.599,00
Por: R$ 3.099,00
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
Vendido por Amazon
Fritadeira Sem Óleo Air Fryer Eos Chef Gourmet 6.2 Litros Compacta Digital Vermelho Eaf60v 110v
De: R$ 299,90
Por: R$ 199,00
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
Vendido por Amazon
soundcore P20i da Anker Fone de Ouvido Sem Fio, Drivers de 10mm, Graves Potentes, Bluetooth 5.3, 30H de Bateria, Resistência à Água, 2 Microfones IA, App Personalizável
De: R$ 249,00
Por: R$ 166,19
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
Vendido por Amazon
Philips Walita Preta Fritadeira Airfryer Essential XL Digital, 6.2L de capacidade, Garantia internacional de dois anos, 110V, 2000W (RI9270/90)
De: R$ 899,90
Por: R$ 588,90
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
Vendido por Amazon
WAP Umidificador de Ar AIR FLOW com Luminária e Difusor de Aromas, 4 Litros, Autonomia de até 12 horas, 20W Bivolt
De: R$ 229,90
Por: R$ 139,99
CAMERA INSTAX MINI 12 ROSA GLOSS
Vendido por Amazon
CAMERA INSTAX MINI 12 ROSA GLOSS
De: R$ 649,00
Por: R$ 473,00

Vale explicar: a Apple não tem ligação com a DeepSeek. A big tech toca suas próprias pesquisas de IA regularmente. Por isso, fica de olho em trabalhos de empresas tanto dos EUA quanto de fora do país – como a startup de IA chinesa.

O relatório no qual os pesquisadores explicam o “molho secreto” do DeepSeek, intitulado “Parâmetros vs FLOPs: Leis de Escala para a Esparsidade Ótima para Modelos de Linguagem Mistos de Especialistas“, foi publicado na semana passada – antes do “boom”, veja você – no servidor de pré-impressão arXiv. De tudo que você acabou de ler neste parágrafo, guarde apenas este termo: esparsidade.

Segredo do DeepSeek é a esparsidade – mas o que isso significa (e como é aplicado) na IA chinesa?

O termo “esparsidade” pode parecer estranho, mas existe (confira exemplos aqui e aqui). É um fenômeno explorado por uma abordagem ampla dentro da aprendizagem profunda (deep learning). O objetivo é simples: extrair mais dos chips de computador.

Mão quase tocando linhas coloridas de código em formato que ilustra conceito de inteligência artificial
Esparsidade faz parte de uma área ampla de pesquisa de IA já explorada por muitos laboratórios (Imagem: NicoElNino/Shutterstock)

Justamente por integrar uma abordagem ampla, a esparsidade se apresenta de várias formas. Às vezes, envolve eliminar partes dos dados usados pela IA quando eles não afetam materialmente o resultado do modelo. Outras vezes, envolve cortar partes de uma rede neural, se isso não afetar o resultado final.

A DeepSeek fez o segundo no desenvolvimento do DeepSeek R1, “motor” do chatbot que ficou popular nesta semana. O autor principal do artigo em questão, Samir Abnar, da Apple, e outros pesquisadores da big tech estudaram como o desempenho variava à medida que exploravam a esparsidade desligando partes da rede neural. Harshay Shah, do MIT, também colaborou.

O principal avanço identificado na DeepSeek é que ela pode ligar e desligar grandes seções dos “pesos” ou “parâmetros” de uma rede neural. Os parâmetros são o que molda como uma rede neural pode transformar a entrada – o comando (prompt) que você digita – em texto ou imagens.

Usar alguns dos parâmetros totais de um modelo de linguagem grande e desligar o restante é um exemplo de esparsidade. E ela pode ter um grande impacto no orçamento computacional de um modelo de IA.

O que pesquisadores da Apple investigaram

Abnar e sua equipe realizaram seus estudos usando uma biblioteca de código lançada em 2023 por pesquisadores de IA da Microsoft, Google e Stanford, chamada MegaBlocks. Mas eles deixam claro que seu trabalho é aplicável ao DeepSeek.

Ícones dos aplicativos do DeepSeek e do ChatGPT na tela inicial de um iPhone
Pesquisadores da Apple explicam como o DeepSeek consegue ter menos poder computacional e alcançar desempenho do ChatGPT (Imagem: Koshiro K/Shutterstock)

Eles questionam se há um nível “otimizado” para a esparsidade no DeepSeek e modelos semelhantes. Em outra palavras: para uma quantidade dada de poder computacional, existe um número ideal de pesos neurais para ligar ou desligar?

Para uma rede neural de um tamanho dado em parâmetros totais, com uma quantidade dada de computação, são necessários cada vez menos parâmetros para atingir a mesma ou melhor precisão em teste de benchmark de IA, como matemática ou perguntas e respostas.

Simplificando: seja qual for o seu poder computacional, você pode desligar partes da rede neural e obter os mesmos resultados (ou até melhores).

Outra inovação do DeepSeek é um truque matemático chamado “atenção latente multi-cabeça”. Em suma, a atenção latente multi-cabeça é usada para comprimir um dos maiores consumidores de memória e largura de banda: o cache de memória que mantém o texto mais recente de um prompt, conforme explicado no Epoch AI.

Leia mais:

O que você precisa entender

Essa descoberta explica como o DeepSeek consegue ter menos poder computacional e alcançar o mesmo ou melhor resultado. O segredo é: desligar mais e mais partes da rede neural.

Pessoa segurando celular com logomarca da DeepSeek na tela
Outros laboratórios e empresas devem explorar esparsidade na esperança de replicar sucesso do DeepSeek (Imagem: Mojahid Mottakin/Shutterstock)

“A esparsidade é uma espécie de dial mágico que encontra a melhor combinação do modelo de IA que você tem e o poder computacional disponível”, conforme explicado pelo ZDNet.

O que tudo isso significa: o DeepSeek é um exemplo saído de uma área ampla de pesquisa já explorada por muitos laboratórios. Agora, muitos outros provavelmente irão segui-la para replicar o sucesso do DeepSeek. A ver quais ideias vão vingar.

Pedro Spadoni
Redator(a)

Pedro Spadoni é jornalista formado pela Universidade Metodista de Piracicaba (Unimep). Já escreveu para sites, revistas e até um jornal. No Olhar Digital, escreve sobre (quase) tudo.