GPU NVIDIA A100 Tensor Core

Aceleración sin precedentes a todas las escalas

Acelerar el trabajo más importante de nuestra época

NVIDIA A100 Tensor Core GPU ofrece aceleración sin precedentes a todas las escalas para proveer a los centros de datos elásticos de mayor rendimiento del mundo con IA, análisis de datos y HPC. A100, con la tecnología de la arquitectura Ampere de NVIDIA, es el motor de la plataforma de centro de datos de NVIDIA. A100 ofrece un rendimiento hasta 20 veces mayor que la generación anterior y puede dividirse en siete instancias de GPU para ajustarse dinámicamente a las demandas de cambio. Disponible en versiones de 40 GB y 80 GB de memoria, A100 ofrece por primera vez el ancho de banda de memoria más rápido del mundo, a más de 2 terabytes por segundo (TB/s), para ejecutar los modelos y los conjuntos de valores de mayor tamaño.

Software de IA preparado para empresas

La plataforma NVIDIA EGX incluye software optimizado que ofrece computación acelerada en toda la infraestructura. Con NVIDIA AI Enterprise, las empresas pueden acceder a una suite de software de IA y análisis de datos nativa de la nube de extremo a extremo, optimizada, certificada y compatible con NVIDIA para ejecutarse en VMware vSphere con sistemas certificados por NVIDIA. NVIDIA AI Enterprise incluye tecnologías de habilitación clave de NVIDIA para la implementación, la gestión y el escalado rápidos de cargas de trabajo de IA en la nube híbrida moderna.

La plataforma de centro de datos de IA y HPC integral más potente

A100 es parte de la completa pila de soluciones del centro de datos de NVIDIA que incorpora elementos esenciales en hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados desde NGC. Representa la plataforma de IA y HPC integral más potente para centros de datos, y permite a los investigadores ofrecer resultados en el mundo real e implementar soluciones en producción a escala.

 

Vídeo de creación de Ampere

Entrenamiento de aprendizaje profundo

Los modelos más grandes ofrecen hasta el triple de entrenamiento de IA

Entrenamiento de DLRM

Up to 3X Higher AI Training on Largest Models

La complejidad de los modelos de IA se dispara a medida que estos se enfrentan a desafíos de nivel superior, como una IA conversacional. Entrenarlos requiere una enorme potencia de computación y escalabilidad.

Los Tensor Cores de NVIDIA A100 con Tensor Float (TF32) ofrecen un rendimiento hasta 20 veces mayor que el de NVIDIA Volta, sin cambios de código, y un impulso adicional duplicado con precisión mixta automática y FP16. Cuando se combina con NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® y el SDK de NVIDIA Magnum IO es posible escalar a miles de GPU A100.

Una carga de trabajo de entrenamiento como BERT puede resolverse a escala en menos de un minuto en 2048 GPU A100, lo cual constituye un récord mundial.

Para los modelos más grandes con tablas de datos masivas, como modelos de recomendación de aprendizaje profundo (DLRM), A100 de 80 GB alcanza hasta 1,3 TB de memoria unificada por nodo y triplica el rendimiento con respecto a A100 de 40 GB.

NVIDIA es líder en MLPerf y ha batido varios récords de rendimiento en el índice de referencia del sector para el entrenamiento de IA.

Inferencia de aprendizaje profundo

A100 presenta innovadoras características para optimizar las cargas de trabajo de inferencia. Acelera una gama completa de precisión, desde FP32 hasta INT4. La tecnología GPU multiinstancia (MIG) permite que varias redes funcionen simultáneamente en un único A100 para optimizar los recursos de computación. Además, el soporte de dispersión estructural ofrece hasta el doble de rendimiento, junto con las otras mejoras de rendimiento de inferencia de A100.

En modelos de IA conversacional de última generación como BERT, A100 acelera el rendimiento de la inferencia hasta 249 veces en comparación con las CPU.

En los modelos más complejos con tamaño de lote restringido como RNN-T para el reconocimiento de voz automático, la mayor capacidad de memoria de A100 de 80 GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces superior en comparación con A100 de 40 GB.

El rendimiento de la Inferencia de MLPerf demostró que NVIDIA es líder en el mercado. A100 aporta 20 veces más rendimiento para ampliar aún más ese liderazgo.

Rendimiento de la inferencia de IA hasta 249 veces mayor
En comparación con las CPU

Inferencia GRANDE de BERT

Up to 249X Higher AI Inference Performance  Over CPUs

Rendimiento de la inferencia de IA hasta 1.25 veces mayor
En comparación con A100 de 40 GB

Inferencia RNN-T: flujo único

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

Computación de alto rendimiento

A fin de poder hacer los descubrimientos de la próxima generación, los científicos buscan simulaciones para comprender mejor el mundo que nos rodea.

NVIDIA A100 presenta Tensor Cores de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. En combinación con los 80 GB de la memoria de GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de 4 con A100. Las aplicaciones HPC también pueden aprovechar TF32 para lograr hasta 11 veces más rendimiento para operaciones de multiplicación de matrices densas de precisión sencilla.

Para las aplicaciones HPC con los conjuntos de datos más grandes, la memoria adicional de A100 de 80 GB duplica el rendimiento con Quantum ESPRESSO, una simulación de materiales. Esta memoria masiva y este ancho de banda de memoria sin precedentes hace de A100 de 80 GB la plataforma ideal para las cargas de trabajo de la próxima generación.

Rendimiento de HPC 11 veces mayor en cuatro años

Las mejores aplicaciones de HPC

11X More HPC Performance  in Four Years

Rendimiento hasta 1,8 veces mayor para aplicaciones HPC

Quantum Espresso​

Up to 1.8X Higher Performance  for HPC Applications

Análisis de datos de alto rendimiento

Hasta 83 veces más rápida que las CPU, el doble de rápida que A100 de 40 GB en referencias de análisis de macrodatos

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Los científicos de datos deben poder analizar, visualizar y convertir conjuntos de datos masivos en información. Sin embargo, con frecuencia las soluciones de escalado horizontal se detienen a medida que estos conjuntos de datos se dispersan en varios servidores. 

Los servidores acelerados con A100 ofrecen la potencia de computación necesaria, junto con una memoria masiva, 2 TB/s de ancho de banda de memoria y escalabilidad con NVIDIA® NVLink® y NVSwitch para hacer frente a estas cargas de trabajo masivas. En combinación con InfiniBand, NVIDIA Magnum IO y las bibliotecas de código abierto del paquete RAPIDS como el acelerador de RAPIDS para Apache Spark para el análisis de datos acelerado por GPU, la plataforma de centro de datos de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficacia sin precedentes.

En una referencia de análisis de macrodatos, A100 de 80 GB ofreció información con un rendimiento 83 veces mayor que las CPU y el doble de rendimiento que A100 de 40 GB, lo que lo convierte en una solución idónea para cargas de trabajo emergentes con tamaños de conjuntos de datos cada vez mayores.

Utilización preparada para la empresa

7 veces mayor rendimiento de inferencia con GPU multiinstancia (MIG)

Inferencia grande de BERT

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 con MIG maximiza la utilización de infraestructura acelerada por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que hace posible que varios usuarios accedan a la aceleración de la GPU. Con A100 de 40 GB, a cada instancia de MIG se le puede asignar hasta 5 GB. Con la mayor capacidad de memoria de A100 de 80 GB, ese tamaño se duplica hasta los 10 GB.

MIG funciona con Kubernetes, contenedores y virtualización de servidores basada en hipervisor. MIG permite a los administradores de infraestructuras ofrecer una GPU con el tamaño adecuado y calidad de servicio (QoS) garantizada para cada tarea, lo que amplía el alcance de los recursos de computación acelerados a todos los usuarios.

 Saca el máximo partido a tus sistemas

Un sistema certificado por NVIDIA, formado por A100 y NVIDIA Mellanox SmartNIC y DPU, está validado por su rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para las cargas de trabajo de la inteligencia artificial desde el catálogo de NVIDIA NGC.

GPU para el centro de datos

NVIDIA A100 para HGX

NVIDIA A100 para HGX

Rendimiento definitivo para todas las cargas de trabajo.

NVIDIA A100 para PCIe

NVIDIA A100 para PCIe

Máxima versatilidad para todas las cargas de trabajo.

Especificaciones

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9,7 TFLOPS
FP64 Tensor Core 19,5 TFLOPS
FP32 19,5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core 624 TOPS | 1248 TOPS*
Memoria de la GPU 40 GB de HBM2 80 GB de HBM2e 40 GB de HBM2 80 GB de HBM2e
Ancho de banda de memoria de la GPU 1555 GB/s 1935 GB/s 1555 GB/s 2039 GB/s
Potencia máxima de diseño térmico (TDP) 250W 300W 400W 400W
GPU multiinstancia Hasta 7 MIG a 5 GB Hasta 7 MIG a 10 GB Hasta 7 MIG a 5 GB Hasta 7 MIG a 10 GB
Formato PCIe SXM
Interconexión NVIDIA® NVLink® Bridge para 2 GPU: 600 GB/s**
PCIe Gen4: 64 GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s
Opciones del servidor Sistemas certificados por NVIDIA y partners con entre 1 y 8 GPU Sistemas certificados por NVIDIA y partners de NVIDIA HGX A100 con 4, 8 o 16 GPU
NVIDIA DGX A100 con 8 GPU
 

Consulta los últimos datos de pruebas de rendimiento de MLPerf

El interior de la arquitectura NVIDIA Ampere

Conoce las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100