GPU NVIDIA A100 TENSOR CORE

Aceleración sin precedentes en todas las escalas

Acelerando el Trabajo Más Importante de Nuestro Tiempo

La GPU NVIDIA A100 Tensor Core ofrece una aceleración sin precedentes en todas las escalas para impulsar los data centers elásticos de mayor rendimiento del mundo para inteligencia artificial, análisis de datos y HPC. Desarrollado por la arquitectura NVIDIA Ampere, la A100 es el motor de la plataforma del data center NVIDIA. La A100 proporciona un rendimiento hasta 20 veces mayor que la generación anterior y se puede dividir en hasta siete instancias de GPU para ajustarse dinámicamente a las demandas cambiantes. Disponible en versiones de memoria de 40GB y 80GB, A100 80GB presenta el ancho de banda de memoria más rápido del mundo a más de 2 terabytes por segundo (TB/s) para ejecutar los modelos y conjuntos de datos más grandes.

La Plataforma de Data Center de IA y HPC de Extremo a Extremo Más Potente

A100 es parte de la solución completa del data center de NVIDIA que incorpora bloques de construcción en hardware, redes, software, bibliotecas y aplicaciones y modelos de IA optimizados de NGC. Representando la plataforma de IA y HPC de extremo a extremo más potente para data centers, permite a los investigadores entregar resultados del mundo real e implementar soluciones en la producción a escala.

 

Making of Ampere Video

ENTRENAMIENTO DE DEEP LEARNING

Entrenamiento de IA Hasta 3 Veces Superior en los Modelos Más Grandes

Entrenamiento DLRM

Entrenamiento de IA Hasta 3 Veces Superior en los Modelos Más Grandes

Los modelos de IA están aumentando en complejidad a medida que asumen desafíos de siguiente nivel, como la IA conversacional. Entrenarlos requiere una enorme capacidad de procesamiento y escalabilidad.

Los NVIDIA A100 Tensor Cores con Tensor Float (TF32) proporcionan un rendimiento hasta 20 veces mayor que el NVIDIA Volta con cero cambios de código y un impulso adicional 2 veces con precisión mixta automática y FP16. Cuando se combina con NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® y NVIDIA Magnum IO SDK, es posible escalar a miles de GPU A100.

Una carga de trabajo de capacitación como BERT se puede resolver a escala en menos de un minuto con 2.048 GPU A100, un récord mundial de tiempo de solución.

Para los modelos más grandes con tablas de datos masivas como los modelos de recomendación de deep learning (DLRM), la A100 80GB alcanza hasta 1,3TB de memoria unificada por nodo y ofrece un aumento de rendimiento de hasta 3 veces más que A100 40GB

El liderazgo de NVIDIA en MLPerf, que establece múltiples récords de rendimiento en el punto de referencia de la industria para la capacitación en IA.

INFERENCIA DEL DEEP LEARNING

La A100 presenta características innovadoras para optimizar las cargas de trabajo de inferencia. Acelera un rango completo de precisión, desde FP32 hasta INT4. La tecnología GPU de multi-instancias (MIG) permite que varias redes operen simultáneamente en un solo A100 para una utilización óptima de los recursos informáticos. Y el soporte de escasez estructural ofrece hasta 2 veces más rendimiento además de otras ganancias de rendimiento de inferencia de A100.

En modelos de IA conversacional de última generación como BERT, la A100 acelera el rendimiento de la inferencia hasta 249 veces en las CPU.

En los modelos más complejos que tienen restricciones de tamaño de lote como RNN-T para el reconocimiento automático de voz, la capacidad de memoria aumentada del A100 80GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces mayor que el A100 40GB.

El rendimiento líder del mercado de NVIDIA se demostró en MLPerf Inference. A100 ofrece 20 veces más rendimiento para ampliar aún más ese liderazgo.

Rendimiento de Inferencia de IA Hasta 249 Veces Mayor que las CPU

Inferencia BERT-LARGE

Rendimiento de Inferencia de IA Hasta 249 Veces Mayor que las CPU

Rendimiento de Inferencia de IA Hasta 1,25 Veces Superior a A100 40GB

Inferencia RNN-T: Flujo Único

Rendimiento de Inferencia de IA Hasta 1,25 Veces Superior a A100 40GB

High-Performance Computing

Para desbloquear los descubrimientos de la próxima generación, los científicos buscan simulaciones para comprender mejor el mundo que nos rodea.

NVIDIA A100 presenta Tensor Cores de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. Combinado con 80 GB de la memoria GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de cuatro horas en A100. Las aplicaciones HPC también pueden aprovechar TF32 para lograr un rendimiento hasta 11 veces mayor para operaciones de multiplicación de matriz densa de precisión simple.

Para las aplicaciones HPC con los conjuntos de datos más grandes, la memoria adicional del A100 80GB ofrece un aumento de rendimiento de hasta 2 veces con Quantum Espresso, una simulación de materiales. Esta memoria masiva y un ancho de banda de memoria sin precedentes hacen del A100 80GB la plataforma ideal para cargas de trabajo de próxima generación.

11 Veces Más Rendimiento de HPC en Cuatro Años

Principales Aplicaciones de HPC

11 Veces Más Rendimiento de HPC en Cuatro Años

Rendimiento Hasta 1,8 Veces Mayor para Aplicaciones HPC

Quantum Espresso​

Rendimiento Hasta 1,8 Veces Mayor para Aplicaciones HPC

ANÁLISIS DE DATOS DE ALTO RENDIMIENTO

Hasta 83 Veces Más Rápido que la CPU, 2 Veces Más Rápido que la A100 40GB en el Benchmark de Análisis de Big Data

Hasta 83 Veces Más Rápido que la CPU, 2 Veces Más Rápido que la A100 40GB en el Benchmark de Análisis de Big Data

Los científicos de datos deben poder analizar, visualizar y convertir conjuntos de datos masivos en conocimientos. Pero las soluciones de escalamiento horizontal a menudo se ven empantanadas por conjuntos de datos dispersos en varios servidores.

Los servidores acelerados con A100 brindan la potencia informática necesaria, junto con una memoria masiva, más de 2TB/seg de ancho de banda de memoria y escalabilidad con NVIDIA® NVLink® y NVSwitch, para hacer frente a estas cargas de trabajo. Combinada con InfiniBand, NVIDIA Magnum IO y el conjunto de bibliotecas de código abierto RAPIDS™, incluido el acelerador RAPIDS para Apache Spark para análisis de datos acelerados por GPU, la plataforma de data center de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficiencia sin precedentes.

En un punto de referencia de análisis de big data, A100 80GB brindó información con un rendimiento 83 veces mayor que las CPU y un aumento 2 veces mayor que A100 40GB, lo que lo hace ideal para cargas de trabajo emergentes con tamaños de conjuntos de datos en expansión.

UTILIZACIÓN LISTA PARA EMPRESAS

7 Veces Mayor Rendimiento de Inferencia con GPU de Multi-Instancias (MIG)

Gran Inferencia BERT

7 Veces Mayor Rendimiento de Inferencia con GPU de Multi-Instancias (MIG)

A100 con MIG maximiza la utilización de la infraestructura acelerada por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que brinda a varios usuarios acceso a la aceleración de la GPU. Con A100 40GB, cada instancia MIG se puede asignar hasta 5GB, y con la capacidad de memoria aumentada del A100 80GB, ese tamaño se duplica a 10GB.

MIG trabaja con Kubernetes, contenedores y virtualización de servidores basada en hipervisores. MIG permite a los administradores de infraestructura ofrecer una GPU del tamaño adecuado con calidad de servicio (QoS) garantizada para cada trabajo, extendiendo el alcance de los recursos informáticos acelerados a cada usuario.

Aproveche al Máximo Sus Sistemas

Un sistema certificado por NVIDIA, que consta de A100 y NVIDIA Mellanox SmartnNIC y DPU, está validado para rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para cargas de trabajo de IA del catálogo NVIDIA NGC.

GPU DEL DATA CENTER

NVIDIA A100 para HGX

NVIDIA A100 para HGX

Máximo rendimiento para todas las cargas de trabajo.

NVIDIA A100 para PCIe

NVIDIA A100 para PCIe

Máxima versatilidad para todas las cargas de trabajo.

Especificaciones

  NVIDIA A100 para NVLink NVIDIA A100 para PCIe
Peak FP64 9.7 TF 9.7 TF
Peak FP64 Tensor Core 19.5 TF 19.5 TF
Peak FP32 19.5 TF 19.5 TF
Tensor Float 32 (TF32) 156 TF | 312 TF* 156 TF | 312 TF*
Peak BFLOAT16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak INT8 Tensor Core 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
Peak INT4 Tensor Core 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
Memoria GPU 40GB 80GB 40GB
Banda Ancha de Memoria GPU 1,555 GB/s 2,039 GB/s 1,555 GB/s
Interconectar NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
GPU Multi-Intancia Varios tamaños de instancia con hasta 7 MIG a 10GB Varios tamaños de instancia con hasta 7 MIG a 5GB
Tamaño 4/8 SXM en NVIDIA HGX A100 PCIe
Máximo Poder TDP 400 W 400 W 250 W
 

Dentro de la Arquitectura NVIDIA Ampere

Descubra las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.