GPU NVIDIA H100 Tensor Core

Rendimiento, escalabilidad y seguridad extraordinarios en todos los centros de datos.

Introducción
H100 NVL
NVIDIA AI Enterprise
Cargas de trabajo
Grace Hopper
Especificaciones

Introducción
H100 NVL
NVIDIA AI Enterprise
Cargas de trabajo
Grace Hopper
Especificaciones

Un salto exponencial para la computación acelerada

Aprovecha el rendimiento, la escalabilidad y la seguridad excepcionales para cada carga de trabajo con la GPU NVIDIA H100 Tensor Core. El NVIDIA NVLink™ Switch Systempermite conectar hasta 256 GPU H100 para acelerar las cargas de trabajo de exaescala. La GPU también incluye un motor transformador dedicado para resolver modelos lingüísticos de billones de parámetros. Las innovaciones tecnológicas combinadas de H100 pueden multiplicar por 30 la aceleración de los modelos lingüísticos de gran tamaño (LLM), algo increíble con respecto a la generación anterior, para ofrecer IA conversacional líder del sector.

Leer la hoja de datos de NVIDIA H100 PCIe

Lee el resumen del producto NVIDIA H100 NVL

Impulsar la inferencia de modelos lingüísticos de gran tamaño

Para LLM con hasta 175 000 millones de parámetros, el puente H100 NVL basado en PCIe con NVLink utiliza el motor transformador, NVLink y memoria HBM3 de 188 GB para ofrecer un rendimiento óptimo y un escalado sencillo en cualquier centro de datos, lo que favorece la adopción generalizada de los LLM. Los servidores equipados con GPU H100 NVL aumentan el rendimiento del modelo GPT-175B hasta 12 veces con respecto a los sistemas NVIDIA DGX™ A100, al tiempo que mantienen una baja latencia en entornos de centros de datos con restricciones energéticas.

¿Todo listo para la IA empresarial?

La adopción empresarial de la IA ahora es convencional y las organizaciones necesitan una infraestructura integral lista para la IA que los acelere en esta nueva era.

H100 para servidores convencionales incluye una suscripción de cinco años, incluido el soporte empresarial, al conjunto de software NVIDIA AI Enterprise, lo que simplifica la adopción de IA con el mayor rendimiento. Esto garantiza que las organizaciones tengan acceso a los marcos de IA y a las herramientas que necesitan para crear flujos de trabajo de IA acelerados por H100, como chatbots de IA, motores de recomendación, IA de visión y mucho más.

Activar NVIDIA AI Enterprise

Acelerar de forma segura las cargas de trabajo de empresa de exaescala

Entrenamiento de IA hasta 4 veces superior en GPT-3

Rendimiento previsto sujeto a cambios. Entrenamiento en GPT-3 175B clúster A100: red HDR IB, clúster H100: red NDR IB | Combinación de entrenamiento de expertos (MoE) variante de Switch-XXL del transformador con parámetros de 395B en conjunto de datos de token 1T, Clúster A100: red HDR IB, Clúster H100: red NDR IB con sistema de conmutación NVLink donde se indique.

Entrenamiento de IA transformador

La H100 cuenta con Tensor Cores de cuarta generación y un motor transformador con precisión FP8 que ofrece un entrenamiento hasta 4 veces más rápido con respecto a la generación anterior para modelos GPT-3 (175B). La combinación de NVLink de cuarta generación, que ofrece 900 gigabytes por segundo (GB/s) de interconexión GPU a GPU; la red InfiniBand NDR Quantum-2, que acelera la comunicación de cada GPU entre nodos; PCIe Gen5; y el software NVIDIA Magnum IO™ que proporciona escalabilidad eficiente desde pequeños sistemas empresariales hasta clústeres de GPU masivos y unificados.

La implementación de GPU H100 a escala de centro de datos ofrece un rendimiento sin precedentes y pone al alcance de todos los investigadores la nueva generación de computación de alto rendimiento (HPC) a exaescala y una IA con billones de parámetros.

Experimentar NVIDIA AI y NVIDIA H100 en NVIDIA LaunchPad

Inferencia de aprendizaje profundo en tiempo real

La IA resuelve una amplia variedad de desafíos empresariales, utilizando una amplia gama de redes neuronales. Un gran acelerador de inferencia de IA no solo ofrece el mayor rendimiento, sino también la versatilidad para acelerar estas redes.

H100 amplía el liderazgo de inferencia líder en el mercado de NVIDIA con varios avances que aceleran la inferencia hasta 30 veces y ofrecen la latencia más baja. Los Tensor Cores de cuarta generación aceleran todas las precisiones, incluidas FP64, TF32, FP32, FP16, INT8 y, ahora, FP8, para reducir el uso de memoria y aumentar el rendimiento sin perder precisión para los LLM.

Rendimiento de inferencia de IA hasta 30 veces superior en los modelos de mayor tamaño

Inferencia de Megatron Chatbot (530 000 millones de parámetros)

Rendimiento previsto sujeto a cambios. Inferencia en un chatbot basado en el modelo de parámetros Megatron 530B para longitud de secuencia de entrada= 128, longitud de secuencia de salida= 20 | Clúster A100: red HDR IB | Clúster H100: sistema de conmutadores NVLink, NDR IB

Rendimiento hasta 7 veces superior para aplicaciones HPC

Computación de alto rendimiento de exaescala

La plataforma de centros de datos NVIDIA ofrece constantemente mejoras de rendimiento más allá de la ley de Moore. Y las nuevas y revolucionarias capacidades de IA de H100 amplían aún más la potencia de HPC+IA para acelerar el tiempo de descubrimiento para científicos e investigadores que trabajan en resolver los retos más importantes del mundo.

H100 triplica las operaciones de punto flotante por segundo (FLOPS) de Tensor Cores de doble precisión, lo que ofrece 60 teraflops de computación FP64 para HPC. Las aplicaciones HPC fusionadas con IA también pueden aprovechar la precisión TF32 de H100 para lograr un petaflop de rendimiento para operaciones de multiplicación de matriz de precisión única, sin cambios de código.

H100 también incorpora nuevas instrucciones DPX que multiplican por 7 el rendimiento de A100 y por 40 el de las CPU en algoritmos de programación dinámicos como Smith-Waterman para la alineación de secuencias de ADN y de proteínas para la predicción de su estructura.

Consultar lo último sobre rendimiento de GPU en aplicaciones HPC

Comparación de instrucciones de DPX de 4 GPU NVIDIA HGX™ H100 frente a 32 núcleos IceLake de doble socket

Análisis de datos acelerado

El análisis de datos suele consumir la mayor parte del tiempo en el desarrollo de aplicaciones de IA. Dado que los conjuntos de datos de gran tamaño se encuentran dispersos en varios servidores, las soluciones de escalado horizontal con servidores con solo CPU básica se detienen por la falta de rendimiento computacional escalable.

Los servidores acelerados con H100 ofrecen la potencia de computación, junto con 3 terabytes por segundo (TB/s) de ancho de banda de memoria por GPU y escalabilidad con NVLink y NVSwitch™, para abordar el análisis de datos con alto rendimiento y escala para admitir conjuntos de datos masivos. En combinación con NVIDIA Quantum-2 InfiniBand, el software Magnum IO, Spark 3.0 acelerado por GPU y NVIDIA RAPIDS™, la plataforma de centro de datos NVIDIA es la única capaz de acelerar estas enormes cargas de trabajo con mayor rendimiento y eficiencia.

Utilización preparada para la empresa

Los responsables de TI buscan maximizar el uso (tanto máximo como medio) de los recursos de computación en el centro de datos. A menudo, emplean reconfiguración dinámica de computación a recursos de tamaño adecuado para cargas de trabajo en uso.

H100 con MIG permite a los administradores de infraestructura estandarizar su infraestructura acelerada por GPU al mismo tiempo que tienen la flexibilidad de aprovisionar recursos de GPU con mayor granularidad para proporcionar de forma segura a los desarrolladores la cantidad adecuada de computación acelerada y optimizar el uso de todos sus recursos de GPU.

Más información sobre MIG

Computación confidencial integrada

Las soluciones de computación confidencial tradicionales se basan en la CPU, lo que resulta demasiado limitado para cargas de trabajo intensivas en computación como la IA a escala. La computación confidencial de NVIDIA es una característica de seguridad integrada en la arquitectura NVIDIA Hopper™ que ha convertido a H100 en el primer acelerador del mundo con estas capacidades. Con NVIDIA Blackwell, la oportunidad de aumentar exponencialmente el rendimiento al tiempo que se protege la confidencialidad e integridad de los datos y las aplicaciones en uso tiene la capacidad de desvelar información sobre los datos como nunca antes. Ahora los clientes pueden utilizar un entorno de ejecución de confianza (TEE) basado en hardware que protege y aísla toda la carga de trabajo de la forma más eficaz.

Más información sobre la computación confidencial de NVIDIA

Rendimiento excepcional para IA y HPC a gran escala

La GPU Hopper Tensor Core impulsará la arquitectura CPU+GPU NVIDIA Grace Hopper, diseñada específicamente para la computación acelerada a escala de terabytes y que proporciona 10 veces más rendimiento en modelos de gran tamaño de IA y HPC. La CPU NVIDIA Grace aprovecha la flexibilidad de la arquitectura Arm^® para crear una arquitectura de CPU y servidor diseñada desde cero para la computación acelerada. La GPU Hopper se combina con la CPU Grace utilizando la interconexión ultrarrápida chip a chip de NVIDIA, que ofrece 900 GB/s de ancho de banda, 7 veces más rápido que PCIe Gen5. Este innovador diseño ofrecerá hasta 30 veces más ancho de banda agregado de memoria del sistema a la GPU en comparación con los servidores más rápidos de hoy en día y un rendimiento hasta 10 veces superior para aplicaciones que ejecutan terabytes de datos.

Más información sobre NVIDIA Grace

Especificaciones del producto

Formato	H100 SXM	H100 PCIe	H100 NVL¹
FP64	34 teraFLOPS	26 teraFLOPS	68 teraFLOPs
Tensor Core de FP64	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
FP32	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
Tensor Core de TF32	989 teraFLOPS²	756 teraFLOPS²	1979 teraFLOPs²
Tensor Core de BFLOAT16	1979 teraFLOPS²	1513 teraFLOPS²	3958 teraFLOPs²
Tensor Core de FP16	1979 teraFLOPS²	1513 teraFLOPS²	3958 teraFLOPs²
Tensor Core de FP8	3958 teraFLOPS²	3026 teraFLOPS²	7916 teraFLOPs²
Tensor Core de INT8	3958 TOPS²	3026 TOPS²	7916 TOPS²
Memoria de la GPU	80GB	80GB	188GB
Ancho de banda de memoria de la GPU	3.35TB/s	2TB/s	7.8TB/s³
Decodificadores	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG	14 NVDEC 14 JPEG
Potencia máxima de diseño térmico (TDP)	Hasta 700 W (configurable)	300-350 W (configurable)	2 de 350 a 400 W (configurable)
GPU de varias instancias	Hasta 7 MIG a 10 GB cada uno		Hasta 14 MIGS a 12 GB cada uno
Formato	SXM	PCIe Refrigeración por aire de dos ranuras	2 PCIe con refrigeración por aire de dos ranuras
Interconexión	NVLink: 900GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s
Opciones del servidor	Sistemas partners de NVIDIA HGX™ H100 y NVIDIA-Certified Systems™ con 4 u 8 GPU NVIDIA DGX™ H100 con 8 GPU	Sistemas certificados por NVIDIA y partners con entre 1 y 8 GPU	Sistemas certificados por NVIDIA y partners con 2-4 pares
NVIDIA AI Enterprise	Complemento	Incluido	Incluido

1. Especificaciones preliminares. Puede estar sujeto a cambios. Especificaciones mostradas para 2 tarjetas PCIe H100 NVL emparejadas con NVLink Bridge.
2. Con dispersión.
3. Ancho de banda HBM agregado.

Sumérgete en la arquitectura NVIDIA Hopper.

Leer el informe técnico