GPU NVIDIA H100 Tensor Core

Desempenho, escalabilidade e segurança sem precedentes para todos os data centers.

Um salto imenso para a computação acelerada.

Aproveite o desempenho, a escalabilidade e a segurança sem precedentes para todas as cargas de trabalho com a GPU NVIDIA H100 Tensor Core. Com o Sistema Switches NVIDIA® NVLink®, até 256 H100s podem ser conectadas para acelerar cargas de trabalho de exaescala, com um Transformer Engine dedicado para resolver modelos de linguagem de trilhões de parâmetros. As inovações tecnológicas combinadas da H100 podem acelerar grandes modelos de linguagem 30 vezes em comparação à geração anterior, oferecendo uma AI conversacional líder do setor.

Pronto para a AI Empresarial?

A adoção empresarial da AI agora é comum, e as empresas precisam de uma infraestrutura pronta para a AI de ponta a ponta que as acelere para essa nova era.

A H100 para servidores convencionais vem com uma assinatura de cinco anos, incluindo suporte empresarial, ao pacote de softwares NVIDIA AI Enterprise, simplificando a adoção da AI com o mais alto desempenho. Isso garante que as empresas tenham acesso aos frameworks e ferramentas de AI necessários para criar workflows de AI acelerados pela H100, como chatbots de AI, mecanismos de recomendação, AI de visão e muito mais.

Acelere com segurança as cargas de trabalho de enterprise para exaescala.

Treinamento de AI até 9 Vezes Maior nos Modelos Maiores

Mistura de Especialistas (395 bilhões de parâmetros)

Treinamento Transformador de AI

Treinamento transformador de AI.

As H100 contam com Tensor Cores de quarta geração e o Transformer Engine com precisão FP8, que oferece treinamento até 9 vezes mais rápido em relação à geração anterior para modelos de Mistura de Especialistas (MoE). A combinação de NVlink de quarta geração, que oferece 900 gigabytes por segundo (GB/s) de interconexão entre GPUs; Sistema de Switches NVSwitch, que acelera a comunicação por todas as GPUs em nós; PCIe 5.0 e software NVIDIA Magnum IO™ oferece escalabilidade eficiente, de pequenas empresas a clusters de GPUs enormes e unificados.

A implantação de GPUs H100 em escala de data center oferece desempenho incrível e coloca a próxima geração de computação de alto desempenho (HPC - High-Performance Computing) de exoescala e AI de trilhões de parâmetros ao alcance de todos os pesquisadores.

Inferência de deep learning em tempo real

A AI soluciona uma ampla variedade de desafios de negócios usando uma ampla gama de redes neurais. Um excelente acelerador de inferência de AI tem que oferecer não apenas o mais alto desempenho, mas também versatilidade para acelerar essas redes.

A H100 amplia ainda mais a sua liderança com a inferência líder de mercado da NVIDIA, com vários avanços que aceleram a inferência em até 30 vezes e proporcionam a menor latência. Os Tensor Cores de 4ª geração aceleram todas as precisões, incluindo FP64, TF32, FP32, FP16 e INT8, e o Transformer Engine utiliza FP8 e FP16 juntos para reduzir o uso de memória e aumentar o desempenho, mantendo a precisão de modelos de linguagem grandes.

Desempenho de inferência de AI até 30 vezes maior em modelos maiores.

Inferência de chatbot Megatron (530 bilhões de parâmetros)

Inferência de Deep Learning em Real Time

Desempenho até 7 vezes maior para aplicações de HPC

Aplicações de HPC com AI

Computação de alto desempenho em exaescala.

A plataforma de data center da NVIDIA oferece ganhos de desempenho consistentemente superiores à Lei de Moore. Além disso, os novos recursos revolucionários de AI da H100 amplificam ainda mais o poder da HPC+AI para acelerar o tempo de descoberta para cientistas e pesquisadores que trabalham para solucionar os desafios mais importantes do mundo.

A H100 triplica as operações de ponto flutuante por segundo (FLOPS) dos Tensor Cores de precisão dupla, oferecendo 60 teraFLOPS de computação FP64 para HPC. As aplicações de HPC com AI podem aproveitar a precisão TF32 da H100 para obter um petaFLOP de taxa de processamento para operações de multiplicação de matrizes de precisão simples, sem alterações de código.

A H100 também apresenta instruções DPX que oferecem um desempenho 7 vezes maior em relação às GPUs NVIDIA A100 Tensor Core e acelerações de 40 vezes em relação aos servidores tradicionais apenas com CPU de soquete duplo em algoritmos de programação dinâmica, como Smith-Waterman para alinhamento de sequências de DNA.

Análise de dados acelerada.

Em geral, a análise de dados consome a maior parte do tempo do desenvolvimento de aplicações AI. Como grandes conjuntos de dados estão distribuídos por vários servidores, as soluções de escalabilidade horizontal com servidores convencionais apenas com CPU são descartadas pela falta de desempenho de computação escalonável.

Servidores acelerados com H100 oferecem potência computacional para lidar com análise de dados com alto desempenho e escala para oferecer suporte a grandes conjuntos de dados, juntamente com 3 terabytes por segundo (TB/s) de largura de banda de memória por GPU e escalabilidade com NVLink e NVSwitch. Com o NVIDIA Quantum-2 Infiniband, o software Magnum IO, o Spark 3.0 acelerado por GPU e o NVIDIA RAPIDS, a plataforma de data center da NVIDIA é capaz de acelerar essas enormes cargas de trabalho com níveis inéditos de desempenho e eficiência.

Servidores acelerados com H100
GPU NVIDIA Multi-Instância

Utilização pronta para empresas.

Os gerentes de TI buscam maximizar a utilização (pico e média) de recursos de computação no data center. Eles geralmente utilizam reconfiguração dinâmica da computação para recursos do tamanho certo para as cargas de trabalho em uso.

A GPU multi-instância (MIG - Multi-Instance GPU) de segunda geração na H100 maximiza a utilização de cada GPU particionando-a com segurança em até sete instâncias separadas. Com suporte de computação confidencial, a H100 permite o uso seguro de ponta a ponta multilocatário, ideal para ambientes de provedor de serviço em cloud (CSP - Cloud Service Provider).

A H100 com MIG permite que os gerentes de infraestrutura padronizem sua infraestrutura acelerada por GPU, além de ter a flexibilidade de provisionar recursos de GPU com maior granularidade para oferecer aos desenvolvedores com segurança a quantidade certa de computação acelerada e otimizar o uso de todos os seus recursos de GPU.

Computação confidencial integrada.

As soluções de computação confidenciais de hoje são baseadas em CPU, o que é muito limitado para cargas de trabalho com uso intensivo de computação, como AI e HPC. A Computação Confidencial da NVIDIA é um recurso integrado de segurança da arquitetura NVIDIA Hopper™ que faz da H100 o primeiro acelerador do mundo com recursos de computação confidenciais. Os usuários podem proteger a confidencialidade e integridade de seus dados e aplicações em uso enquanto aproveitam a aceleração inédita das GPUs H100. Ela cria um ambiente de execução confiável (TEE) baseado em hardware que protege e isola toda a carga de trabalho em execução em uma única GPU H100, várias GPUs H100 em um nó ou em instâncias individuais da MIG. As aplicações aceleradas por GPU podem ser executadas inalteradas no TEE e não precisam ser particionadas. Os usuários podem combinar a potência do software NVIDIA para AI e HPC com a segurança de uma raiz de confiança de hardware oferecida pela Computação Confidencial da NVIDIA.

Soluções de Computação Confidencial da NVIDIA
Acelerador Convergente NVIDIA H100CX

A convergência entre GPU e SmartNIC.

O NVIDIA H100 CNX combina a potência da H100 com os recursos avançados de rede da placa de interface de rede inteligente NVIDIA ConnectX®-7 (SmartNIC) em uma única plataforma. Essa convergência oferece um desempenho sem precedentes para cargas de trabalho intensa de entrada/saída (I/O) com GPU, como treinamento distribuído de AI no data center empresarial e processamento 5G no edge.

Desempenho inigualável para AI e HPC em larga escala.

A GPU Hopper Tensor Core potencializará a arquitetura Grace Hopper de CPU+GPU NVIDIA, desenvolvida especificamente para computação acelerada em escala de terabyte e oferecendo um desempenho 10 vezes maior em AI de modelos grandes e HPC. A CPU NVIDIA Grace aproveita a flexibilidade da arquitetura Arm® para criar uma arquitetura de CPU e servidor projetada do zero para computação acelerada. A GPU Hopper é combinada com a CPU Grace usando a interconexão ultrarrápida entre chips da NVIDIA, oferecendo 900 GB/s de largura de banda, 7 vezes mais rápida do que o PCIe 5.0 Esse design inovador oferecerá uma largura de banda de memória do sistema agregada até 30 vezes maior para a GPU em comparação com os servidores mais rápidos do momento, e um desempenho até 10 vezes maior para aplicações que executam terabytes de dados.

Soluções de Computação Confidencial da NVIDIA

Veja as especificações do produto.

Fator Forma H100 SXM H100 PCIe
FP64 34 teraFLOPS 26 teraFLOPS
FP64 Tensor Core 67 teraFLOPS 51 teraFLOPS
FP32 67 teraFLOPS 51 teraFLOPS
TF32 Tensor Core 989 teraFLOPS* 756 teraFLOPS*
BFLOAT16 Tensor Core 1.979 teraFLOPS* 1.513 teraFLOPS*
FP16 Tensor Core 1.979 teraFLOPS* 1.513 teraFLOPS*
FP8 Tensor Core 3.958 teraFLOPS* 3.026 teraFLOPS*
INT8 Tensor Core 3.958 TOPS* 3.026 TOPS*
Memória de GPU 80GB 80GB
Largura de banda da memória de GPU 3,35TB/s 2TB/s
Decodificadores 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
Potência máxima do design térmico (TDP - Thermal Design Power) Até 700W (configurável) 300 a 350W (configurável)
GPUs Multi-Instância Até 7 MIGS a 10GB cada
Fator Forma SXM PCIe
Resfriamento por ar de dois slots
Interconexão NVLink: 900GB/s PCIe 5.0: 128GB/s NVLINK: 600GB/s PCIe 5.0: 128GB/s
Opções de servidor Parceiro NVIDIA HGX H100 e Sistemas Certificados NVIDIA com 4 ou 8 GPUs NVIDIA DGX H100 com 8 GPUs Parceiros e Sistemas Certificados pela NVIDIA com 1 a 8 GPUs
NVIDIA AI Enterprise Complemento Incluído

Saiba tudo sobre a Arquitetura NVIDIA Hopper.