GPU NVIDIA A100 con Tensor Core

Aceleración sin precedentes a todos los niveles

Acelerar el trabajo más importante de nuestro tiempo

La GPU NVIDIA A100 con Tensor Core ofrece una aceleración sin precedentes a todos los niveles para proporcionar IA, análisis de datos y HPC a los centros de datos elásticos de mayor rendimiento del mundo. La A100, con la tecnología de la arquitectura NVIDIA Ampere, es el motor de la plataforma de centros de datos de NVIDIA. La A100 ofrece un rendimiento hasta 20 veces mayor que la generación anterior y puede dividirse en siete instancias de GPU para ajustarse dinámicamente a las demandas de cambio. La A100 de 80 GB ofrece por primera vez el ancho de banda de memoria más rápido del mundo, a más de 2 terabytes por segundo (TB/s), para ejecutar los más grandes modelos y conjuntos de datos.

Software de IA específico para empresas

La plataforma NVIDIA EGX incluye software optimizado que ofrece computación acelerada en toda la infraestructura. Con NVIDIA AI Enterprise, las empresas pueden acceder a un conjunto integral nativo en la nube de software de IA y análisis de datos optimizado, certificado y compatible con NVIDIA para su ejecución en VMware vSphere con sistemas certificados por NVIDIA. NVIDIA AI Enterprise incluye tecnologías de habilitación clave de NVIDIA para la implementación, la gestión y el escalado rápidos de cargas de trabajo de IA en la nube híbrida moderna.

La plataforma integral de centros de datos de HPC e IA más potente hasta la fecha

La A100 forma parte de la completa solución de centro de datos de NVIDIA, que incorpora elementos esenciales para hardware, redes, software, bibliotecas, y modelos y aplicaciones de IA optimizados desde NGC. Como representante de la plataforma de IA y HPC integral para centros de datos más potente que existe, permite a los investigadores ofrecer resultados en el mundo real e implementar soluciones en producción a escala.

 

Vídeo de cómo se hizo Ampere

Entrenamiento de Deep Learning

Entrenamiento de IA hasta 3 veces superior en los modelos más grandes

Entrenamiento de DLRM

Entrenamiento de IA hasta 3 veces superior en los modelos más grandes

La complejidad de los modelos de IA se dispara a medida que se enfrentan a desafíos de mayor nivel, como la IA conversacional. Entrenarlos requiere una enorme potencia de computación y escalabilidad.

Los núcleos Tensor Core de la NVIDIA A100 con Tensor Float (TF32) ofrecen un rendimiento hasta 20 veces mayor que el de la NVIDIA Volta, sin cambios de código y ofreciendo un impulso adicional duplicado con precisión combinada automática y FP16. Cuando se combina con NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® y el SDK de NVIDIA Magnum IO, es posible escalar a miles de GPU A100.

Una carga de trabajo de entrenamiento como BERT puede resolverse a escala en menos de un minuto en 2048 GPU A100, lo cual constituye un récord mundial.

Para los modelos más grandes con tablas de datos enormes, como los modelos de recomendación de deep learning (DLRM), la A100 de 80 GB alcanza hasta 1,3 TB de memoria unificada por nodo y triplica el rendimiento con respecto a la A100 de 40 GB.

NVIDIA es líder en MLPerf y ha batido varios récords de rendimiento en la prueba de referencia del sector para el entrenamiento de IA.

Inferencia de Deep Learning

La A100 presenta innovadoras características que permiten optimizar las cargas de trabajo de inferencia. Acelera una gama completa de precisión, desde FP32 hasta INT4. La tecnología GPU multiinstancia (MIG) permite que varias redes funcionen simultáneamente en una única A100. De este modo se optimizan los recursos de computación. Además, el soporte de dispersión estructural ofrece hasta el doble de rendimiento, junto con las otras mejoras de rendimiento de inferencia de la A100.

En modelos de IA conversacional de última generación como BERT, la A100 acelera el rendimiento de la inferencia hasta 249 veces en comparación con las CPU.

En los modelos más complejos con tamaño de lote restringido como RNN-T para el reconocimiento de voz automático, la mayor capacidad de memoria de la A100 de 80 GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces superior en comparación con la A100 de 40 GB.

El rendimiento líder en el mercado de NVIDIA ha quedado demostrado en la inferencia de MLPerf. La A100 aporta 20 veces más rendimiento para ampliar aún más ese liderazgo.

Rendimiento de la inferencia de IA hasta 249 veces mayor
en comparación con las CPU

Inferencia GRANDE de BERT

Rendimiento de la inferencia de IA hasta 249 veces mayor en comparación con las CPU

Rendimiento de la inferencia de IA hasta 1,25 veces mayor
en comparación con la A100 de 40 GB

Inferencia RNN-T: flujo único

Rendimiento de la inferencia de IA hasta 1,25 veces mayor en comparación con la A100 de 40 GB

Computación de alto rendimiento

A fin de poder hacer los descubrimientos de la próxima generación, los científicos buscan simulaciones que les permitan comprender mejor el mundo que nos rodea.

NVIDIA A100 presenta los núcleos Tensor Core de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. En combinación con los 80 GB de la memoria de GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de 4 con la A100. Las aplicaciones de HPC también pueden aprovechar TF32 para lograr hasta 11 veces más rendimiento en operaciones de multiplicación de matrices densas de precisión simple.

Para las aplicaciones de HPC con los conjuntos de datos más grandes, la memoria adicional de la A100 de 80 GB duplica el rendimiento con Quantum Espresso, una simulación de materiales. Esta memoria inmensa y este ancho de banda de memoria sin precedentes hacen de la A100 de 80 GB la plataforma ideal para las cargas de trabajo de la próxima generación.

11 veces más rendimiento de HPC en cuatro años

Las mejores aplicaciones de HPC

11 veces más rendimiento de HPC en cuatro años

Rendimiento hasta 1,8 veces superior para aplicaciones de HPC

Quantum Espresso​

Rendimiento hasta 1,8 veces superior para aplicaciones de HPC

Análisis de datos de alto rendimiento

Hasta 83 veces más rápida que las CPU y el doble de rápida que la A100 de 40 GB en pruebas de referencia de análisis de big data

Hasta 83 veces más rápida que las CPU y el doble de rápida que A100 de 40 GB en pruebas de referencia de análisis de big data

Los científicos de datos deben poder analizar, visualizar y convertir conjuntos de datos de gran tamaño en información. Sin embargo, las soluciones de escalado horizontal a menudo se detienen a medida que estos conjuntos de datos se dispersan en varios servidores.

Los servidores acelerados con la A100 ofrecen la potencia de computación necesaria, junto con una memoria masiva, 2 TB/s de ancho de banda de memoria y escalabilidad con NVIDIA® NVLink® y NVSwitch para hacer frente a estas cargas de trabajo. En combinación con InfiniBand, NVIDIA Magnum IO y las bibliotecas de código abierto del paquete RAPIDS, como el acelerador de RAPIDS para Apache Spark para el análisis de datos acelerado por GPU, la plataforma de centro de datos de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficacia sin precedentes.

En una prueba de referencia de análisis de big data, la A100 de 80 GB ofreció información con un rendimiento 83 veces mayor que las CPU y el doble de rendimiento que la A100 de 40 GB, lo que la convierte en una solución idónea para cargas de trabajo emergentes con tamaños de conjuntos de datos cada vez mayores.

Utilización preparada para la empresa

7 veces mayor rendimiento de inferencia con GPU multiinstancia (MIG)

Inferencia grande de BERT

7 veces mayor rendimiento de inferencia con GPU multiinstancia (MIG)

La A100 con MIG maximiza la utilización de las infraestructuras aceleradas por GPU. Con MIG, una GPU A100 se puede dividir en hasta siete instancias independientes, lo que hace posible que varios usuarios accedan a la aceleración de dicha GPU. Con la A100 de 40 GB, se pueden asignar hasta 5 GB a cada instancia de MIG. Con la mayor capacidad de memoria de la A100 de 80 GB, ese tamaño se duplica hasta los 10 GB.

MIG funciona con Kubernetes, contenedores y virtualización de servidores basada en hipervisor. MIG permite a los administradores de infraestructuras ofrecer una GPU con el tamaño adecuado y calidad de servicio (QoS) garantizada para cada tarea, lo que amplía el alcance de los recursos de computación acelerados a todos los usuarios.

Sacar el máximo partido a los sistemas

Un sistema certificado por NVIDIA, formado por la A100 y por Mellanox SmartNIC y DPU de NVIDIA, está validado para su rendimiento, funcionalidad, escalabilidad y seguridad, lo que permite a las empresas implementar fácilmente soluciones completas para las cargas de trabajo de la IA desde el catálogo de NVIDIA NGC.

GPU para centros de datos

NVIDIA A100 para HGX

NVIDIA A100 para HGX

Rendimiento definitivo para todas las cargas de trabajo.

NVIDIA A100 para PCIe

NVIDIA A100 para PCIe

Máxima versatilidad para todas las cargas de trabajo.

Especificaciones

  A100 80 GB PCIe A100 80 GB SXM
FP64 9,7 TFLOPS
Tensor Core de FP64 19,5 TFLOPS
FP32 19,5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
Tensor Core de BFLOAT16 312 TFLOPS | 624 TFLOPS*
Tensor Core de FP16 312 TFLOPS | 624 TFLOPS*
Tensor Core de INT8 624 TOPS | 1248 TOPS*
Memoria de la GPU 80 GB de HBM2e 80 GB de HBM2e
Ancho de banda de memoria de la GPU 1935 GB/s 2039 GB/s
Potencia máxima de diseño térmico (TDP) 300 W 400 W ***
GPU multiinstancia Hasta 7 MIG a 10 GB Hasta 7 MIG a 10 GB
Formato PCIe
Refrigeración por aire de dos ranuras o refrigeración por líquido de una sola ranura
SXM
Interconexión NVIDIA® NVLink® Bridge
para 2 GPU: 600 GB/s **
PCIe Gen4: 64 GB/s
NVLink: 600 GB/s
PCIe Gen4: 64 GB/s
Opciones del servidor Partners y NVIDIA-Certified Systems™ con entre 1 y 8 GPU Sistemas certificados por NVIDIA y partners de NVIDIA HGX™ H100 con 4,8 o 16 GPU NVIDIA DGX™ H100 con 8 GPU
 

Consultar los datos más recientes de pruebas de referencia de MLPerf

El interior de la arquitectura NVIDIA Ampere

Conoce las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.