NVIDIA H100 Tensor Core GPU

GPU NVIDIA H100 con Núcleo Tensor

Rendimiento, escalabilidad y seguridad extraordinarios para cada centro de datos.

Un Salto de Orden de Magnitud para la Computación Acelerada

Aproveche el rendimiento, la escalabilidad y la seguridad excepcionales para cada carga de trabajo con la GPU NVIDIA H100 Tensor Core. Con el Sistema de Switch NVIDIA NVLink, se pueden conectar hasta 256 GPU H100 para acelerar cargas de trabajo a exaescala. La GPU también incluye un Transformer Engine dedicado para resolver modelos de lenguaje de billones de parámetros. Las innovaciones tecnológicas combinadas del H100 pueden acelerar los modelos de lenguajes grandes (LLM) hasta 30 veces más que la generación anterior para ofrecer IA conversacional líder en la industria.

Supercarga la Inferencia de Grandes Modelos de Lenguaje

Para LLM de hasta 175 mil millones de parámetros, el H100 NVL basado en PCIe con puente NVLink utiliza Transformer Engine, NVLink y memoria HBM3 de 188GB para proporcionar un rendimiento óptimo y un fácil escalamiento en cualquier centro de datos, llevando los LLM a la corriente principal. Los servidores equipados con GPU H100 NVL aumentan el rendimiento del modelo GPT-175B hasta 12 veces en comparación con los sistemas NVIDIA DGX™ A100, al tiempo que mantienen una baja latencia en entornos de centros de datos con limitaciones de energía.

¿Listo para la IA Empresarial?

La adopción empresarial de la IA es ahora algo común y las organizaciones necesitan una infraestructura integral preparada para la IA que las acelere hacia esta nueva era.

Las GPU NVIDIA H100 para servidores convencionales vienen con una suscripción de cinco años, que incluye soporte empresarial, al paquete de software NVIDIA AI Enterprise, lo que simplifica la adopción de la IA con el mayor rendimiento. Esto garantiza que las organizaciones tengan acceso a los frameworks y herramientas de IA que necesitan para crear workflows de IA acelerados por H100, como chatbots de IA, motores de recomendación, IA de visión y más.

Acelere de Forma Segura las Cargas de Trabajo Desde la Empresa Hasta la Exaescala

Entrenamiento de IA Hasta 4 Veces Superior en GPT-3

Rendimiento proyectado sujeto a cambios. Entrenamiento GPT-3 175B Clúster A100: red HDR IB, clúster H100: red NDR IB | Variante del Switch-XXL del transformador de capacitación de mezcla de expertos (MoE) con parámetros 395B en un conjunto de datos de token de 1T, clúster A100: red HDR IB, clúster H100: red NDR IB con sistema de conmutador NVLink donde se indique.

Entrenamiento de IA Transformacional

H100 presenta Tensor Cores de cuarta generación y un Transformer Engine con precisión FP8 que proporciona un entrenamiento hasta 4 veces más rápido que la generación anterior para los modelos GPT-3 (175B). La combinación de NVLink de cuarta generación, que ofrece 900 gigabytes por segundo (GB/s) de interconexión de GPU a GPU; Red NDR Quantum-2 InfiniBand, que acelera la comunicación de cada GPU entre nodos; PCIe Gen5; y el software NVIDIA Magnum IO™ ofrece escalabilidad eficiente desde sistemas de pequeñas empresas hasta clústeres de GPU masivos y unificados.

La implementación de GPU H100 a escala de data center ofrece un rendimiento excepcional y pone la próxima generación de computación de alto rendimiento (HPC) a exaescala y IA de billones de parámetros al alcance de todos los investigadores.

Inferencia de Deep Learning en Tiempo Real

La IA resuelve una amplia gama de desafíos empresariales mediante el uso de una gama igualmente amplia de redes neuronales. Un gran acelerador de inferencia de IA no solo debe ofrecer el mayor rendimiento sino también la versatilidad para acelerar estas redes.

H100 amplía el liderazgo en inferencia líder del mercado de NVIDIA con varios avances que aceleran la inferencia hasta 30 veces y ofrecen la latencia más baja. Los Núcleos Tensor de cuarta generación aceleran todas las precisiones, incluidas FP64, TF32, FP32, FP16, INT8 y ahora FP8, para reducir el uso de memoria y aumentar el rendimiento sin dejar de mantener la precisión para los LLM.

Rendimiento de Inferencia de IA hasta 30 Veces Mayor en los Modelos Más Grandes

Inferencia del chatbot Megatron (530 mil millones de parámetros)

Rendimiento proyectado sujeto a cambios. Inferencia en el chatbot basado en el modelo de parámetros Megatron 530B para longitud de secuencia de entrada = 128, longitud de secuencia de salida = 20 | Clúster A100: red HDR IB | Clúster H100: sistema de conmutador NVLink, NDR IB

Rendimiento Hasta 7 Veces Mayor para Aplicaciones HPC

Rendimiento proyectado sujeto a cambios. Rendimiento 3D FFT (4K^3) | Clúster A100: red HDR IB | Clúster H100: Sistema de conmutador NVLink, NDR IB | Secuenciación del genoma (Smith-Waterman) | 1 A100 | 1H100

Computación de Alto Rendimiento a Exaescala

La plataforma del data center de NVIDIA ofrece constantemente mejoras de rendimiento que van más allá de la ley de Moore. Y las nuevas capacidades innovadoras de IA del H100 amplifican aún más el poder de HPC+AI para acelerar el tiempo de descubrimiento para los científicos e investigadores que trabajan en la resolución de los desafíos más importantes del mundo.

H100 triplica las operaciones de punto flotante por segundo (FLOPS) de Núcleos Tensor de doble precisión, entregando 60 teraflops de computación FP64 para HPC. Las aplicaciones HPC fusionadas con IA también pueden aprovechar la precisión TF32 del H100 para lograr un petaflop de rendimiento para operaciones de multiplicación de matrices de precisión simple, sin cambios de código.

H100 también presenta nuevas instrucciones DPX que ofrecen un rendimiento 7 veces mayor que el A100 y aceleraciones 40 veces mayores que las CPU en algoritmos de programación dinámica como Smith-Waterman para la alineación de secuencias de ADN y la alineación de proteínas para la predicción de la estructura de las proteínas.

Comparación de instrucciones DPX NVIDIA HGX™ H100 4-GPU vs IceLake de 32 núcleos y doble socket

Análisis de Datos Acelerados

El análisis de datos suele consumir la mayor parte del tiempo en el desarrollo de aplicaciones de IA. Dado que grandes conjuntos de datos están dispersos en varios servidores, las soluciones de escalamiento horizontal con servidores básicos que solo utilizan CPU se ven estancadas por la falta de rendimiento informático escalable.

Los servidores acelerados con H100 ofrecen la potencia de computación, junto con 3 terabytes por segundo (TB/s) de ancho de banda de memoria por GPU y escalabilidad con NVLink y NVSwitch™, para abordar el análisis de datos con alto rendimiento y escala para admitir conjuntos de datos masivos. Combinada con NVIDIA Quantum-2 InfiniBand, el software Magnum IO, Spark 3.0 acelerado por GPU y NVIDIA RAPIDS™, la plataforma del data center de NVIDIA tiene una capacidad única para acelerar estas enormes cargas de trabajo con mayor rendimiento y eficiencia.

Utilización Lista para la Empresa

Los administradores de TI buscan maximizar la utilización (tanto máxima como promedio) de los recursos de computación en el data center. A menudo emplean una reconfiguración dinámica de la computación para adaptar los recursos al tamaño adecuado para las cargas de trabajo en uso.

H100 con MIG permite a los administradores de infraestructura estandarizar su infraestructura acelerada por GPU y, al mismo tiempo, tener la flexibilidad de suministrar recursos de GPU con mayor granularidad para brindar de forma segura a los desarrolladores la cantidad adecuada de computación acelerada y optimizar el uso de todos sus recursos de GPU.

Computación Confidencial Incorporada

Las soluciones tradicionales de Computación Confidencial se basan en CPU, lo cual es demasiado limitado para cargas de trabajo con uso intensivo de computación, como IA y HPC. La Computación Confidencial de NVIDIA es una característica de seguridad integrada en la arquitectura NVIDIA Hopper™ que convirtió al H100 en el primer acelerador del mundo con estas capacidades. Con NVIDIA Blackwell, la oportunidad de aumentar exponencialmente el rendimiento y al mismo tiempo proteger la confidencialidad y la integridad de los datos y las aplicaciones en uso tiene la capacidad de desbloquear información valiosa sobre los datos. Los clientes ahora pueden utilizar un entorno de ejecución confiable (TEE) basado en hardware que protege y aísla toda la carga de trabajo a una velocidad nunca experimentada.

Rendimiento Excepcional para IA y HPC a Gran Escala

La GPU Hopper Tensor Core impulsará la arquitectura NVIDIA Grace Hopper CPU+GPU, diseñada específicamente para computación acelerada a escala de terabytes y que proporciona un rendimiento 10 veces mayor en IA y HPC de grandes modelos. La CPU NVIDIA Grace aprovecha la flexibilidad de la arquitectura Arm® para crear una arquitectura de CPU y servidor diseñada desde cero para la computación acelerada. La GPU Hopper se combina con la CPU Grace mediante la interconexión ultrarrápida de chip a chip de NVIDIA, que ofrece 900GB/s de ancho de banda, 7 veces más rápido que PCIe Gen5. Este diseño innovador ofrecerá hasta 30 veces más ancho de banda de memoria del sistema agregado a la GPU en comparación con los servidores más rápidos de la actualidad y hasta 10 veces más rendimiento para aplicaciones que ejecutan terabytes de datos.

Especificaciones del Producto

Formato H100 SXM H100 PCIe H100 NVL1
FP64 34 teraFLOPS 26 teraFLOPS 68 teraFLOPS
Núcleo Tensor FP64 67 teraFLOPS 51 teraFLOPS 134 teraFLOPS
FP32 67 teraFLOPS 51 teraFLOPS 134 teraFLOPS
Núcleo Tensor TF32 989 teraFLOPS2 756 teraFLOPS2 1.979 teraFLOPS2
Núcleo Tensor BFLOAT16 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPS2
Núcleo Tensor FP16 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPS2
Núcleo Tensor del FP8 3.958 teraFLOPS2 3.026 teraFLOPS2 7.916 teraFLOPS2
Núcleo Tensor INT8 3.958 TOPS2 3.026 TOPS2 7,916 TOPS2
Memoria GPU 80GB 80GB 188GB
Ancho de Banda de Memoria GPU 3,35 TB/s 2TB/s 7,8 TB/s3
Decodificadores 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
14 NVDEC
14 JPEG
Potencia Máxima de Diseño Térmico (TDP) Hasta 700W (configurable) 300-350W (configurable) 2x 350-400W (configurables)
GPU de Instancias Múltiples Hasta 7 MIGS @ 10 GB cada uno Hasta 14 MIGS @ 12 GB cada uno
Formato SXM PCIe
refrigerado por aire de doble ranura
2 PCIe
refrigerado por aire de doble ranura
Interconexión NVLink: 900 GB/s
PCIe Gen5: 128 GB/s
NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
Opciones de Servidor NVIDIA HGX H100
Sistemas Certificados por NVIDIA™ y socios con 4 u 8 GPU
NVIDIA DGX H100 con 8 GPU
Sistemas Certificados por NVIDIA y socios con 1 a 8 GPU Sistemas Certificados por NVIDIA y socios con 2 a 4 pares
NVIDIA AI Enterprise Añadir Incluido Incluido

Sumérgete en la arquitectura NVIDIA Hopper.