Aceleración sin precedentes en todas las escalas
La GPU NVIDIA A100 Tensor Core ofrece una aceleración sin precedentes en todas las escalas para impulsar los data centers elásticos de mayor rendimiento del mundo para inteligencia artificial, análisis de datos y HPC. Desarrollado por la arquitectura NVIDIA Ampere, la A100 es el motor de la plataforma del data center NVIDIA. La A100 proporciona un rendimiento hasta 20 veces mayor que la generación anterior y se puede dividir en hasta siete instancias de GPU para ajustarse dinámicamente a las demandas cambiantes. Disponible en versiones de memoria de 40GB y 80GB, A100 80GB presenta el ancho de banda de memoria más rápido del mundo a más de 2 terabytes por segundo (TB/s) para ejecutar los modelos y conjuntos de datos más grandes.
A100 es parte de la solución completa del data center de NVIDIA que incorpora bloques de construcción en hardware, redes, software, bibliotecas y aplicaciones y modelos de IA optimizados de NGC™. Representando la plataforma de IA y HPC de extremo a extremo más potente para data centers, permite a los investigadores entregar resultados del mundo real e implementar soluciones en la producción a escala.
Entrenamiento DLRM
DLRM en el framework HugeCTR, precisión = FP16 | Tamaño de lote de NVIDIA A100 de 80 GB = 48 | Tamaño de lote de NVIDIA A100 de 40 GB = 32 | Tamaño de lote de NVIDIA V100 de 32 GB = 32.
Los modelos de IA están aumentando en complejidad a medida que asumen desafíos de siguiente nivel, como la IA conversacional. Entrenarlos requiere una enorme capacidad de procesamiento y escalabilidad.
Los NVIDIA A100 Tensor Cores con Tensor Float (TF32) proporcionan un rendimiento hasta 20 veces mayor que el NVIDIA Volta con cero cambios de código y un impulso adicional 2 veces con precisión mixta automática y FP16. Cuando se combina con NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® y NVIDIA Magnum IO™ SDK, es posible escalar a miles de GPU A100.
Una carga de trabajo de capacitación como BERT se puede resolver a escala en menos de un minuto con 2.048 GPU A100, un récord mundial de tiempo de solución.
Para los modelos más grandes con tablas de datos masivas como los modelos de recomendación de deep learning (DLRM), la A100 80GB alcanza hasta 1,3TB de memoria unificada por nodo y ofrece un aumento de rendimiento de hasta 3 veces más que A100 40GB
El liderazgo de NVIDIA en MLPerf, que establece múltiples récords de rendimiento en el punto de referencia de la industria para la capacitación en IA.
La A100 presenta características innovadoras para optimizar las cargas de trabajo de inferencia. Acelera un rango completo de precisión, desde FP32 hasta INT4. La tecnología GPU de multi-instancias (MIG) permite que varias redes operen simultáneamente en un solo A100 para una utilización óptima de los recursos informáticos. Y el soporte de escasez estructural ofrece hasta 2 veces más rendimiento además de otras ganancias de rendimiento de inferencia de A100.
En modelos de IA conversacional de última generación como BERT, la A100 acelera el rendimiento de la inferencia hasta 249 veces en las CPU.
En los modelos más complejos que tienen restricciones de tamaño de lote como RNN-T para el reconocimiento automático de voz, la capacidad de memoria aumentada del A100 80GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces mayor que el A100 40GB.
El rendimiento líder del mercado de NVIDIA se demostró en MLPerf Inference. A100 ofrece 20 veces más rendimiento para ampliar aún más ese liderazgo.
Inferencia BERT-LARGE
Inferencia BERT-Large | Solo CPU: Dual Xeon Gold 6240 a 2,60 GHz, precisión = FP32, tamaño de lote = 128 | V100: NVIDIA TensorRT ™ (TRT) 7.2, precisión = INT8, tamaño de lote = 256 | A100 40GB y 80GB, tamaño de lote = 256, precisión = INT8 con escasez.
Inferencia RNN-T: Flujo Único
MLPerf 0.7 RNN-T medido con (1/7) cortes MIG. Framework: TensorRT 7.2, conjunto de datos = LibriSpeech, precisión = FP16.
Para desbloquear los descubrimientos de la próxima generación, los científicos buscan simulaciones para comprender mejor el mundo que nos rodea.
NVIDIA A100 presenta Tensor Cores de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. Combinado con 80 GB de la memoria GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de cuatro horas en A100. Las aplicaciones HPC también pueden aprovechar TF32 para lograr un rendimiento hasta 11 veces mayor para operaciones de multiplicación de matriz densa de precisión simple.
Para las aplicaciones HPC con los conjuntos de datos más grandes, la memoria adicional del A100 80GB ofrece un aumento de rendimiento de hasta 2 veces con Quantum Espresso, una simulación de materiales. Esta memoria masiva y un ancho de banda de memoria sin precedentes hacen del A100 80GB la plataforma ideal para cargas de trabajo de próxima generación.
Principales Aplicaciones de HPC
Media geométrica de aceleraciones de la aplicación frente a P100: Aplicación de referencia: Ámbar [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Nodo de GPU con CPU de dos sockets con 4x NVIDIA P100, V100, o GPU A100.
Quantum Espresso
Quantum Espresso medido con el conjunto de datos CNT10POR8, precisión = FP64.
Benchmark de análisis de Big Data | 30 consultas minoristas analíticas, ETL, ML, NLP en un conjunto de datos de 10 TB | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 de 32 GB, RAPIDS / Dask | A100 de 40 GB y A100 de 80 GB, RAPIDS / Dask / BlazingSQL
Los científicos de datos deben poder analizar, visualizar y convertir conjuntos de datos masivos en conocimientos. Pero las soluciones de escalamiento horizontal a menudo se ven empantanadas por conjuntos de datos dispersos en varios servidores.
Los servidores acelerados con A100 brindan la potencia informática necesaria, junto con una memoria masiva, más de 2TB/seg de ancho de banda de memoria y escalabilidad con NVIDIA® NVLink® y NVSwitch™, para hacer frente a estas cargas de trabajo. Combinada con InfiniBand, NVIDIA Magnum IO™ y el conjunto de bibliotecas de código abierto RAPIDS™, incluido el acelerador RAPIDS™ para Apache Spark para análisis de datos acelerados por GPU, la plataforma de data center de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficiencia sin precedentes.
En un punto de referencia de análisis de big data, A100 80GB brindó información con un rendimiento 83 veces mayor que las CPU y un aumento 2 veces mayor que A100 40GB, lo que lo hace ideal para cargas de trabajo emergentes con tamaños de conjuntos de datos en expansión.
Gran Inferencia BERT
Gran Inferencia BERT | NVIDIA TensorRT™ (TRT) 7.1 | GPU NVIDIA T4 Tensor Core: TRT 7.1, precisión = INT8, tamaño de lote = 256 | V100: TRT 7.1, precisión = FP16, tamaño de lote = 256 | A100 con 1 o 7 instancias MIG de 1g.5gb: tamaño de lote = 94, precisión = INT8 con escasez.
A100 con MIG maximiza la utilización de la infraestructura acelerada por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que brinda a varios usuarios acceso a la aceleración de la GPU. Con A100 40GB, cada instancia MIG se puede asignar hasta 5GB, y con la capacidad de memoria aumentada del A100 80GB, ese tamaño se duplica a 10GB.
MIG trabaja con Kubernetes, contenedores y virtualización de servidores basada en hipervisores. MIG permite a los administradores de infraestructura ofrecer una GPU del tamaño adecuado con calidad de servicio (QoS) garantizada para cada trabajo, extendiendo el alcance de los recursos informáticos acelerados a cada usuario.
Un sistema certificado por NVIDIA, que consta de A100 y NVIDIA Mellanox SmartnNIC y DPU, está validado para rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para cargas de trabajo de IA del catálogo NVIDIA NGC.
Máximo rendimiento para todas las cargas de trabajo.
Máxima versatilidad para todas las cargas de trabajo.
* Con escasez ** GPU SXM a través de placas de servidor HGX A100; GPU PCIe a través de NVLink Bridge para hasta 2 GPU
Descubra las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.