NVIDIA H100 Tensor Core GPU

GPU NVIDIA H100 Tensor Core

Desempenho, escalabilidade e segurança extraordinários para todos os data centers.

Um Salto de Ordem de Grandeza para Computação Acelerada

Aproveite o desempenho, escalabilidade e segurança excepcionais para cada carga de trabalho com a GPU NVIDIA H100 Tensor Core. Com o Sistema de Switch NVIDIA NVLink™, até 256 GPUs H100 podem ser conectadas para acelerar cargas de trabalho em exaescala. A GPU também inclui um Transformer Engine dedicado para resolver modelos de linguagem de trilhões de parâmetros. As inovações tecnológicas combinadas do H100 podem acelerar os grandes modelos de linguagem (LLMs) em incríveis 30 vezes em relação à geração anterior para fornecer IA de conversação líder do setor.

Turbine a Inferência de Grande Modelos de Linguagem

Para LLMs de até 175 bilhões de parâmetros, o H100 NVL baseado em PCIe com ponte NVLink utiliza Transformer Engine, NVLink e memória HBM3 de 188GB para fornecer desempenho ideal e fácil escalabilidade em qualquer data center, trazendo os LLMs para o mainstream. Servidores equipados com GPUs H100 NVL aumentam o desempenho do modelo GPT-175B em até 12 vezes em relação aos sistemas NVIDIA DGX™ A100, mantendo baixa latência em ambientes de data center com restrição de energia.

Pronto para IA Empresarial?

A adoção empresarial da IA é agora generalizada e as empresas precisam de uma infraestrutura completa e pronta para IA que as acelere nesta nova era.

As GPUs NVIDIA H100 para servidores convencionais vêm com uma assinatura de cinco anos, incluindo suporte empresarial, para o pacote de software NVIDIA AI Enterprise, simplificando a adoção de IA com o mais alto desempenho. Isso garante que as empresas tenham acesso aos frameworks e ferramentas de IA necessárias para criar workflows de IA acelerados pela H100, como chatbots de IA, mecanismos de recomendação, IA de visão e muito mais.

Acelere Cargas de Trabalho com Segurança, da Empresa à Exaescala

Treinamento de IA até 4 Vezes Superior no GPT-3

Desempenho projetado sujeito a alterações. Cluster A100 de treinamento GPT-3 175B: rede HDR IB, cluster H100: rede NDR IB | Variante Switch-XXL do transformador de treinamento Mixture of Experts (MoE) com parâmetros 395B no conjunto de dados de token 1T, cluster A100: rede HDR IB, cluster H100: rede NDR IB com sistema de switch NVLink quando indicado.

Treinamento Transformacional em IA

A H100 possui Núcleos Tensor de quarta geração e um Transformer Engine com precisão FP8 que fornece treinamento até 4 vezes mais rápido em relação à geração anterior para modelos GPT-3 (175B). A combinação do NVLink de quarta geração, que oferece 900 gigabytes por segundo (GB/s) de interconexão GPU a GPU; Rede NDR Quantum-2 InfiniBand, que acelera a comunicação de cada GPU entre nós; PCIe Gen5; e o software NVIDIA Magnum IO™ oferece escalabilidade eficiente desde sistemas de pequenas empresas até clusters de GPU massivos e unificados.

A implantação de GPUs H100 em escala de data center oferece desempenho excepcional e coloca a próxima geração de computação de alto desempenho (HPC) em exaescala e IA de trilhões de parâmetros ao alcance de todos os pesquisadores.

Inferência de Deep Learning em Tempo Real

A IA resolve uma ampla gama de desafios de negócios, usando uma variedade igualmente ampla de redes neurais. Um excelente acelerador de inferência de IA deve não apenas oferecer o mais alto desempenho, mas também a versatilidade para acelerar essas redes.

A H100 amplia a liderança de inferência da NVIDIA com vários avanços que aceleram a inferência em até 30 vezes e oferecem a menor latência. Os Núcleos Tensor de quarta geração aceleram todas as precisões, incluindo FP64, TF32, FP32, FP16, INT8 e agora FP8, para reduzir o uso de memória e aumentar o desempenho, mantendo a precisão dos LLMs.

Desempenho de Inferência de IA até 30 Vezes Maior nos Grandes Modelos

Inferência do chatbot Megatron (530 bilhões de parâmetros)

Desempenho projetado sujeito a alterações. Inferência no chatbot baseado em modelo de parâmetro Megatron 530B para comprimento de sequência de entrada = 128, comprimento de sequência de saída = 20 | Cluster A100: rede HDR IB | Cluster H100: Sistema de switch NVLink, NDR IB

Desempenho Até 7 Vezes Maior para Aplicações de HPC

Desempenho projetado sujeito a alterações. Taxa de transferência 3D FFT (4K ^ 3) | Cluster A100: rede HDR IB | Cluster H100: Sistema de switch NVLink, NDR IB | Sequenciamento do Genoma (Smith-Waterman) | 1A100 | 1h100

Computação Exascala de Alto Desempenho

A plataforma de data center da NVIDIA oferece consistentemente ganhos de desempenho que vão além da lei de Moore. E os novos recursos inovadores de IA da H100 ampliam ainda mais o poder do HPC+AI para acelerar o tempo de descoberta para cientistas e pesquisadores que trabalham na solução dos desafios mais importantes do mundo.

A H100 triplica as operações de ponto flutuante por segundo (FLOPS) dos Núcleos Tensor de precisão dupla, fornecendo 60 teraflops de computação FP64 para HPC. As aplicações de HPC com fusão de IA também podem aproveitar a precisão TF32 do H100 para atingir um petaflop de taxa de transferência para operações de multiplicação de matriz de precisão simples, com zero alterações de código.

A H100 também apresenta novas instruções DPX que oferecem desempenho 7 vezes maior em relação à A100 e acelerações de 40 vezes em CPUs em algoritmos de programação dinâmica, como Smith-Waterman para alinhamento de sequência de DNA e alinhamento de proteínas para previsão de estrutura de proteínas.

Comparação de instruções DPX NVIDIA HGX™ H100 de 4 GPUs versus IceLake de 32 núcleos de soquete duplo

Análise de Dados Acelerada

A análise de dados geralmente consome a maior parte do tempo no desenvolvimento de aplicações de IA. Como grandes conjuntos de dados estão espalhados por vários servidores, as soluções de expansão com servidores comuns somente com CPU ficam atoladas pela falta de desempenho computacional escalável.

Servidores acelerados com H100 fornecem o poder de computação, junto com 3 terabytes por segundo (TB/s) de largura de banda de memória por GPU e escalabilidade com NVLink e NVSwitch™, para lidar com a análise de dados com alto desempenho e escala para suportar conjuntos de dados massivos. Combinado com NVIDIA Quantum-2 InfiniBand, software Magnum IO, Spark 3.0 acelerado por GPU e NVIDIA RAPIDS™, a plataforma de data center da NVIDIA é capaz de acelerar essas enormes cargas de trabalho com maior desempenho e eficiência.

Utilização Pronta para Empresas

Os gerentes de TI procuram maximizar a utilização (pico e média) dos recursos de computação no data center. Eles geralmente empregam reconfiguração dinâmica da computação para dimensionar os recursos corretamente para as cargas de trabalho em uso.

A H100 com MIG permite que os gerentes de infraestrutura padronizem sua infraestrutura acelerada por GPU, ao mesmo tempo em que têm a flexibilidade de provisionar recursos de GPU com maior granularidade para fornecer aos desenvolvedores com segurança a quantidade certa de computação acelerada e otimizar o uso de todos os seus recursos de GPU.

Computação Confidencial Integrada

As soluções tradicionais de computação confidencial são baseadas em CPU, o que é muito limitado para cargas de trabalho com uso intensivo de computação, como IA e HPC. A Computação Confidencial da NVIDIA é um recurso de segurança integrado da arquitetura NVIDIA Hopper™ que tornou o H100 o primeiro acelerador do mundo com esses recursos. Com a NVIDIA Blackwell, a oportunidade de aumentar exponencialmente o desempenho e ao mesmo tempo proteger a confidencialidade e a integridade dos dados e aplicações em uso tem a capacidade de desbloquear insights de dados. Os clientes agora podem usar um ambiente de execução confiável (TEE) baseado em hardware que protege e isola toda a carga de trabalho em uma velocidade nunca vista.

Desempenho Excepcional para IA e HPC em Larga Escala

A GPU Hopper Tensor Core impulsionará a arquitetura NVIDIA Grace Hopper CPU + GPU, desenvolvida especificamente para computação acelerada em escala de terabytes e fornecendo desempenho 10 vezes maior em IA e HPC de grandes modelos. A CPU NVIDIA Grace aproveita a flexibilidade da arquitetura Arm® para criar uma arquitetura de CPU e servidor projetada desde o início para computação acelerada. A GPU Hopper é emparelhada com a CPU Grace usando a interconexão chip a chip ultrarrápida da NVIDIA, oferecendo 900 GB/s de largura de banda, 7 vezes mais rápido que o PCIe Gen5. Este design inovador fornecerá largura de banda de memória de sistema agregada até 30 vezes maior para a GPU em comparação com os servidores mais rápidos de hoje e desempenho até 10 vezes maior para aplicações que executam terabytes de dados.

Especificações do Produto

Formato H100 SXM H100 PCIe H100 NVL1
FP64 34 teraFLOPS 26 teraFLOPS 68 teraFLOPS
Núcleo Tensor FP64 67 teraFLOPS 51 teraFLOPS 134 teraFLOPS
FP32 67 teraFLOPS 51 teraFLOPS 134 teraFLOPS
Núcleo Tensor TF32 989 teraFLOPS2 756 teraFLOPS2 1.979 teraFLOPS2
Núcleo Tensor BFLOAT16 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPS2
Núcleo Tensor FP16 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPS2
Núcleo Tensor FP8 3.958 teraFLOPS2 3.026 teraFLOPS2 7.916 teraFLOPS2
Núcleo Tensor INT8 3.958 TOPOS2 3.026 TOPOS2 7.916 TOPOS2
Memória GPU 80 GB 80 GB 188 GB
Largura de Banda da Memória GPU 3,35 TB/s 2TB/s 7,8 TB/s3
Decodificadores 7 NVDEC
7JPEG
7 NVDEC
7JPEG
14 NVDEC
14JPEG
Potência Máxima de Design Térmico (TDP) Até 700W (configurável) 300-350W (configurável) 2x 350-400W (configurável)
GPUs Multi-Instâncias Até 7 MIGS @ 10GB cada Até 14 MIGS @ 12GB cada
Formato SXM PCIe
refrigerado a ar de dois slots
2 PCIe
refrigerado a ar de dois slots
Interconexão NV Link: 900 GB/s
PCIe Gen5: 128 GB/s
NV Link: 600 GB/s
PCIe Gen5: 128 GB/s
NV Link: 600 GB/s
PCIe Gen5: 128 GB/s
Opções de Servidor NVIDIA HGX H100
Sistemas Certificados pela NVIDIA™ e por parceiros com 4 ou 8 GPUs
NVIDIA DGX H100 com 8 GPUs
Sistemas Certificados pela NVIDIA e por parceiros com 1 a 8 GPUs Sistemas Certificados pela NVIDIA e por parceiros com 2 a 4 pares
NVIDIA AI Enterprise Adicionar Incluído Incluído

Aprofunde-se na arquitetura NVIDIA Hopper.