Arquitectura NVIDIA Hopper

El nuevo motor de la infraestructura de IA mundial da un salto de rendimiento de gran magnitud.

La plataforma de computación acelerada para cargas de trabajo de próxima generación.

Obtén información sobre el próximo gran salto en informática acelerada con la arquitectura NVIDIA Hopper. Hopper escala de forma segura distintas cargas de trabajo en cualquier centro de datos, desde las pequeñas empresas hasta la computación de alto rendimiento (HPC) a exaescala, y cuenta con una IA con billones de parámetros, de forma que los innovadores más brillantes puedan realizar el trabajo de su vida a una velocidad nunca vista en la historia de la humanidad.

¿Todo listo para la IA empresarial?

La adopción empresarial de la IA ahora es convencional y las organizaciones necesitan una infraestructura integral lista para la IA que los acelere en esta nueva era.

Las GPU NVIDIA H100 Tensor Core para servidores convencionales incluyen el conjunto de software NVIDIA AI Enterprise, lo que simplifica la adopción de IA con el máximo rendimiento.

Explora los avances tecnológicos.

Hopper, con más de 80 000 millones de transistores dotados de un vanguardista proceso TSMC 4N, presenta cinco innovaciones rompedoras que alimentan la GPU NVIDIA H100 Tensor Core y que se combinan para ofrecer una increíble velocidad hasta 30 veces mayor que la de la generación anterior gracias a la inferencia de IA del chatbot Megatron 530B de NVIDIA, el modelo de lenguaje generativo más grande del mundo.

Transformer Engine

Motor transformador

La arquitectura NVIDIA Hopper está dotada de tecnología Tensor Core con un motor transformador, diseñado para acelerar el entrenamiento de modelos de IA. Los Tensor Cores de Hopper tienen la capacidad de aplicar precisiones combinadas de FP8 y FP16, lo que permite acelerar drásticamente los cálculos de IA de los transformadores. Hopper también triplica las operaciones de punto flotante por segundo (FLOPS) de las precisiones TF32, FP64, FP16 e INT8 con respecto a la generación anterior. Junto con el motor transformador y NVIDIA® NVLink® de cuarta generación, los Tensor Cores de Hopper posibilitan una velocidad de orden de magnitud en las cargas de trabajo de IA y HPC.

Red NVLink

Para moverse a la velocidad del mundo empresarial actual, los modelos a exaescala de HPC y de IA con billones de parámetros necesitan una comunicación sin fisuras y de alta velocidad entre cada GPU de un clúster de servidores para poder acelerar a escala.

La red NVLink de cuarta generación es una interconexión a escala vertical. Si se combina con el nuevo conmutador NVLink externo, la red NVLink ahora permite escalar la E/S de múltiples GPU en varios servidores a 900 gigabytes/segundo en sentido bidireccional por cada GPU, 7 veces más que el ancho de banda de PCIe Gen5. La red NVLink admite clústeres de hasta 256 H100 conectados, y ofrece un ancho de banda 9 veces superior al de InfiniBand HDR en Ampere.

Además, ahora NVLink admite una computación en red llamada SHARP (antes solo disponible en InfiniBand) y es capaz de ofrecer una increíble computación de IA de dispersión de 1 exaflop de FP8 y, al mismo tiempo, alcanzar un ancho de banda All2All de 57,6 terabytes/s.

NVLink Switch System
Computación confidencial de NVIDIA

Computación confidencial de NVIDIA

Aunque los datos se cifran en reposo en el almacenamiento y en tránsito por la red, están desprotegidos mientras se procesan. La informática confidencial acaba con esta deficiencia protegiendo los datos y las aplicaciones en uso. La arquitectura NVIDIA Hopper presenta la primera plataforma de informática acelerada del mundo con capacidades de computación confidencial.

Con una tremenda seguridad basada en hardware, los usuarios pueden ejecutar aplicaciones locales, en la nube o en el perímetro con la certeza de que ninguna entidad no autorizada pueda ver ni modificar los datos y el código de las aplicaciones aplicación mientras están en uso. Esto protege la confidencialidad y la integridad de los datos y las aplicaciones mientras se disfruta de la aceleración sin precedentes de las GPU H100 para cargas de trabajo de HPC, entrenamiento de IA e inferencia de IA.

MIG de segunda generación

Con la GPU multiinstancia (MIG), una GPU se puede particionar en varias instancias más pequeñas y completamente aisladas con núcleos de memoria, caché y cálculo propios. La arquitectura Hopper mejora aún más la MIG al admitir configuraciones multiinquilino y multiusuario en entornos virtualizados en hasta siete instancias de GPU, lo que permite aislar cada instancia de forma segura con informática confidencial en el nivel de hardware y de hipervisor. Los descodificadores de vídeo dedicados para cada instancia de MIG ofrecen un análisis inteligente de vídeo seguro y de alto rendimiento en una infraestructura compartida. Además, gracias a la generación simultánea de perfiles de MIG de Hopper, los administradores pueden supervisar la aceleración de GPU de un tamaño adecuado y optimizar la asignación de recursos para los usuarios.

Por su parte, los investigadores con cargas de trabajo más pequeñas, en vez de tener que alquilar una instancia CSP entera, pueden optar por utilizar MIG para asociar sin riesgo alguno una parte de una GPU mientras tienen la seguridad de que sus datos están protegidos en reposo, en tránsito y al calcularlos.

Second-Generation MIG
DPX Instructions

Instrucciones de DPX

La programación dinámica es una técnica algorítmica que resuelve problemas recursivos complejos dividiéndolos en subproblemas más sencillos. Al almacenar los resultados de los subproblemas para que no haya que recalcularlos más tarde, reduce el tiempo y la complejidad de resolver problemas exponenciales. La programación dinámica suele utilizarse en un amplio abanico de casos de uso.  Por ejemplo, Floyd-Warshall es un algoritmo de optimización de rutas que se puede utilizar para asignar las rutas más cortas de las flotas de envío y entrega. El algoritmo Smith-Waterman se utiliza en la alineación de secuencias de ADN y el plegamiento de proteínas.

Las instrucciones DPX de Hopper aceleran los algoritmos de programación dinámica hasta 40 veces en comparación con los servidores de solo CPU de doble socket y hasta 7 veces en comparación con las GPU de la arquitectura NVIDIA Ampere. De este modo, se tarda mucho menos tiempo en diagnosticar enfermedades, optimizar el enrutamiento e incluso analizar gráficos.

Las especificaciones preliminares pueden estar sujetas a cambios
Comparación de las instrucciones de DPX de 4 GPU HGX H100 frente a 32 núcleos Ice Lake
de doble socket

Sumérgete en la arquitectura NVIDIA Hopper.