La plataforma de IA de supercomputación de extremo a extremo más potente
Los conjuntos de datos masivos, los grandes tamaños de modelos y las simulaciones complejas requieren múltiples GPU con interconexiones extremadamente rápidas. La plataforma NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, NVIDIA® NVLink®, NVIDIA Mellanox® InfiniBand® de conexión de red y una pila de software de NVIDIA IA y HPC totalmente optimizada desde NGC™ para ofrecer el máximo rendimiento de las aplicaciones. Gracias a su rendimiento y flexibilidad de extremo a extremo, NVIDIA HGX permite a los investigadores y científicos combinar simulaciones, análisis de datos e IA para avanzar en el progreso científico.
NVIDIA HGX A100 combina varias GPU NVIDIA A100 Tensor Core con interconexiones de alta velocidad para formar los servidores más potentes del mundo. Con las GPU A100 de 80 GB, un solo HGX A100 tiene hasta 1,3 terabytes (TB) de memoria GPU y más de 2 terabytes por segundo (TB/s) de ancho de banda de memoria, lo que ofrece una aceleración sin precedentes.
HGX A100 ofrece una velocidad de IA hasta 20 veces mayor en comparación con las generaciones anteriores con tensor Float 32 (TF32) y una velocidad de HPC 2,5 veces mayor con FP64. HGX A100, completamente probada y fácil de implementar, se integra en los servidores asociados para proporcionar un rendimiento garantizado. NVIDIA HGX A100 con 16 GPU ofrece 10 petaFLOPS escalonados, por lo que se trata de la plataforma de servidor de escalado vertical acelerada más potente del mundo para IA y HPC.
Formación de DLRM
DLRM en HugeCTR Framework, Precision = FP16 | Tamaño del lote NVIDIA A100 de 80 GB = 48 | Tamaño del lote NVIDIA A100 de 40 GB = 32 | Tamaño del lote de NVIDIA V100 de 32 GB = 32.
Los modelos de aprendizaje profundo son cada vez más complejos y su tamaño cada vez mayor, lo que requiere un sistema con gran cantidad de memoria, una potencia informática masiva e interconexiones rápidas para la escalabilidad. Con las comunicaciones GPU de alta velocidad y entre todos los componentes de NVIDIA® NVSwitch™, HGX A100 puede manejar los modelos de IA más avanzados. Con las GPU A100 de 80 GB, la memoria de la GPU se duplica, lo que ofrece hasta 1,3 TB de memoria en una sola HGX A100. Las nuevas cargas de trabajo de los modelos más grandes, como los modelos de recomendación de aprendizaje profundo (DLRM), que emplean tablas de datos masivas, se aceleran hasta el triple con HGX gracias a las GPU A100 de 40 GB.
Referencia de análisis de macrodatos | 30 consultas de análisis del sector minorista, ETL, ML, NLP en un conjunto de datos de 10 TB | CPU: Intel Xeon Gold 6252 a 2,10 GHz, Hadoop | V100 de 32 GB, RAPIDS/Dask | A100 de 40 GB y A100 de 80 GB, RAPIDS/Dask/BlazingSQL
Los modelos de aprendizaje automático requieren la carga, transformación y procesamiento de conjuntos de datos extremadamente grandes poder extraer conclusiones importantes. Con hasta 1,3 TB de memoria unificada y las comunicaciones de GPU entre todos los componentes con NVSwitch, HGX A100 con tecnología de GPU A100 de 80 GB cuenta con la capacidad necesaria para cargar y realizar cálculos en enormes conjuntos de datos con el fin de obtener conclusiones prácticas rápidamente
En una referencia de análisis de macrodatos, A100 de 80 GB ofreció información con un rendimiento 83 veces mayor que las CPU y el doble de rendimiento que A100 de 40 GB, lo que lo convierte en una solución idónea para cargas de trabajo emergentes con tamaños de conjuntos de datos cada vez mayores.
Las aplicaciones HPC deben realizar una cantidad enorme de cálculos por segundo. Aumentar la densidad de cálculo de cada nodo de servidor reduce drásticamente la cantidad de servidores necesarios, lo que implica un gran ahorro de dinero, energía y espacio en el centro de datos. Para las simulaciones, la multiplicación de matrices de muchas dimensiones necesita un procesador que obtenga datos de varios procesadores próximos para los cálculos, lo que hace ideal la conexión de GPU de NVIDIA NVLink. Las aplicaciones HPC también pueden aprovechar los A100 de TF32 para lograr hasta 11 veces más rendimiento para operaciones de multiplicación de matrices densas de precisión sencilla.
Una HGX A100 con tecnología de GPU A100 de 80 GB ofrece el doble de aumento del rendimiento con respecto a las GPU A100 de 40 GB de Quantum Espresso, una simulación de materiales, lo que mejora el tiempo de obtención de información.
Las mejores aplicaciones de HPC
Media geométrica de aceleraciones de aplicaciones frente a P100: aplicación de referencia; Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Bosque aleatorio FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], nodo GPU con CPU de doble zócalo con 4 GPU NVIDIA P100, V100 o A100.
Quantum Espresso
Quantum Espresso medido con el conjunto de datos CNT10POR8, precisión = FP64.
La completa pila de soluciones del centro de datos de NVIDIA incorpora elementos esenciales en hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados en NGC™. Representing the most powerful end-to-end AI and HPC platform for data centers, it allows researchers to deliver real-world results and deploy solutions into soluciones en producción a escala.
HGX A100 está disponible en placas base individuales con cuatro u ocho GPU A100. La configuración de cuatro GPU está totalmente interconectada con NVLink y la configuración de ocho GPU, con NVSwitch. También se pueden combinar dos placas base NVIDIA HGX™ A100 8-GPU usando una interconexión NVSwitch para crear un potente nodo único de 16-GPU.
* Con dispersión
NVIDIA HGX-1 y HGX-2 son arquitecturas de referencia que estandarizan el diseño de centros de datos con aceleración de IA y HPC. Construidas con placas NVIDIA SXM2 V100 y tecnologías de interconexión NVIDIA NVLink y NVSwitch, las arquitecturas de referencia HGX tienen un diseño modular que funciona perfectamente en centros de datos híbridos y a hiperescala para ofrecer hasta 2 petaFLOPS de potencia de cálculo como camino rápido y sencillo a IA y HPC.
Lee esta información técnica detallada para aprender las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.