Nesta segunda-feira (18), a Nvidia revelou, em evento, seu mais novo chip para suas GPUs (placas gráficas), o Blackwell B200 GPU, chamado pela empresa de “o chip mais poderoso” para inteligência artificial (IA).

Segundo o The Verge, a companhia aponta que o B200 GPU possui até 20 petaflops de potência FP4 de seus 208 bilhões de transístores (ante 80 bilhões do H100, destaca a Folha de S.Paulo) e que o GB200 combina duas dessas GPUs com única GPU Grace, podendo oferecer 30 vezes mais desempenho para cargas de trabalho de interferência LLM, sendo, ainda, possivelmente, mais eficiente. Ele “reduz custos e consumo de energia em até 25x” em relação a um H100, indica a Nvidia.

publicidade

Leia mais:

publicidade
CEO da Nvidia, Jensen Huang, segura sua nova GPU (esq.), ao lado de um H100 (dir.), no evento (Imagem: Nvidia)

Huang afirmou que o novo chip é duas vezes mais poderoso no treinamento de modelos de IA em relação à geração atual de GPUs, e tem cinco vezes mais capacidade de inferência (velocidade na qual modelos de IA respondem perguntas).

Chip “mais poderoso” para IAs

  • A companhia alega que, para treinar modelo de IA com 1,8 trilhão de parâmetros, eram necessários oito mil GPUs Hopper e 15 MW de potência;
  • Agora, segundo o CEO da Nvidia, Jensen Huang, bastam duas mil GPUs Blackwell e 4 MW;
  • Em benchmark realizado com o GPT-3, com 175 bilhões de parâmetros, a companhia informou que o GB200 tem desempenho um pouco mais modesto, sete vezes mais que um H100, com velocidade de treinamento quatro vezes maior;
  • A Nvidia detalhou que a melhoria-chave é um motor transformador de segunda geração que dobra a computação, largura de banda e tamanho de modelo usando quatro bits para cada neurônio em vez de oito;
  • Outra importante diferença é visualizável ao conectar várias dessas GPUs: um switch NVLink de última geração que permite que 576 GPUs se comuniquem entre si, com 1,8 TB/s de largura de banda bidirecional;
  • Para tanto, a Nvidia construiu um chip de switch de rede novo, com 50 bilhões de transístores e parte de sua computação integrada (3,6 teraflops de FP8);
  • Segundo a empresa, anteriormente, um conjunto de 16 GPUs gastava 60% de seu tempo se comunicando entre si e apenas 40% trabalhando.

publicidade
Esta é a aparência de um GB200. Duas GPUs, uma CPU, uma placa (Imagem: Nvidia)

Nvidia conta com empresas

A empresa espera que as empresas comprem grandes quantidades dessas GPUs, e está as empacotando em designs maiores, como a GB200 NVL72, capaz de conectar 36 CPUs e 72 GPUs em um só rack refrigerado a líquido, para um total de 720 petaflops de desempenho de treinamento de IA, ou 1,44 mil petaflops (1,4 exaflops) de inferência. Ainda, possui quase três quilômetros de cabos internos, com cinco mil cabos individuais.

Cada bandeja do rack tem dois chips GB200, ou dois switches NVLink, com 18 dos primeiro e nove dos últimos por rack. A Nvidia indica que, no total, cada um desses racks suporta um modelo de 27 trilhões de parâmetros. Rumores indicam ainda que o GPT-4 seja um modelo de cerca de 1,7 trilhão de parâmetros.

publicidade

Nvidia diz que está adicionando FP4 e FP6 com Blackwell (Imagem: Nvidia)

Segundo a empresa, Amazon, Google, Microsoft e Oracle já visam ofertar os racks NVL72 em suas ofertas de serviços de nuvem, apesar de ainda não ser claro quanto estão comprando.

Outra solução que a Nvidia vai colocar no pacote é o DGX Superpod para o DGX GB200, que combina oito sistemas em um só para um total de 288 CPUs, 576 GPUs, 240 TB de memória e 11,5 exaflops de computação FP4.

Esses sitemas podem ser dimensionados para dezenas de milhares de superchips GB200, conectados em conjunto com redes de 800 Gbps com seu novo Quantum-X800 InfiniBand (para até 144 conexões) ou Spectrum-X800 ethernet (para até 64 conexões).