Arquitectura NVIDIA Ampere

El corazón de los centros de datos más escalables y de mayor rendimiento del mundo 

El núcleo de la IA y la HPC en el Centro de datos moderno

Científicos, investigadores e ingenieros —los da Vincis y los Einstein de nuestro tiempo— están trabajando para resolver los desafíos científicos, industriales y de big data más importantes del mundo con la IA y la computación de alto rendimiento (HPC). La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, ofrece el próximo salto de gigante al proporcionar una aceleración sin igual a todas las escalas, lo que permite a estos innovadores hacer el trabajo de su vida.

Innovaciones pioneras

Fabricado con 54 mil millones de transistores, NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y cuenta con cinco innovaciones clave.

Tensor Cores de tercera generación

Tensor Cores de tercera generación

Introducido por primera vez en la arquitectura NVIDIA Volta, la tecnología NVIDIA Tensor Core ha traído velocidades espectaculares a la IA, reduciendo los tiempos de entrenamiento de semanas a horas y proporcionando una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al aportar nuevas precisiones (Tensor Float (TF32) y coma flotante FP64) para acelerar y simplificar la adopción de IA y ampliar la potencia de Tensor Cores a HPC.

TF32 funciona igual que FP32 mientras entrega velocidades hasta 10 veces superiores para la IA sin necesidad de ningún cambio de código. Usando Precisión combinada y automática de NVIDIA, los investigadores pueden obtener un rendimiento 2 veces mayor con una sola línea de código adicional. Y con soporte para bfloat16, INT8 e INT4, Tensor Cores en NVIDIA A100 crea un acelerador increíblemente versátil para ambos Entrenamiento de IA e inferencia. Al traer la potencia de Tensor Cores a HPC, A100 también permite operaciones de matriz con una precisión FP64 completa y certificada por IEEE.

GPU multiinstancia (MIG)

Cada aplicación de IA y HPC puede beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento de una GPU A100 completa. Con MIG, cada A100 se puede dividir en particiones de hasta siete instancias de GPU, totalmente aisladas y protegidas a nivel de hardware con sus propios núcleos de computación, caché y memoria de gran ancho de banda. Ahora, los desarrolladores pueden acceder a una aceleración innovadora para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Además, los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para una utilización óptima y ampliar el acceso a todos los usuarios y aplicaciones en entornos virtualizados y completos.

GPU multiinstancia (MIG)

Escasez estructural

Las redes de IA modernas son grandes y cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para predicciones e inferencias precisas, y algunos se pueden convertir a ceros para hacer que los modelos sean "escasos" sin comprometer la precisión. Tensor Cores in A100 pueden proporcionar un rendimiento hasta 2X mayor para los modelos escasos. Mientras que la característica de la escasez beneficia la inferencia de IA, también se puede utilizar para mejorar el rendimiento del entrenamiento del modelo. 

Escasez estructural
Smarter and Faster Memory

Memoria más inteligente y rápida

A100 está trayendo enormes cantidades de computación a los centros de datos. Para mantener esos motores de proceso totalmente utilizados, tiene un ancho de banda de memoria de 1,5 terabytes por segundo (TB/s) líder en su clase, un aumento del 67 por ciento con respecto a la generación anterior. Además, el A100 tiene una memoria en chip significativamente mayor, incluida una memoria caché de nivel 2 de 40 megabytes (MB) (7 veces mayor que la generación anterior) para maximizar el rendimiento computacional.

Aceleración convergente en la periferia

La combinación de la arquitectura NVIDIA Ampere y ConnectX-6 Dx SmartNIC de Mellanox en NVIDIA EGX™ A100 ofrece capacidades de computación y aceleración de red sin precedentes para procesar las enormes cantidades de datos que se generan en la periferia. Mellanox SmartNIC incluye descargas de seguridad para descifrar a velocidades de línea de hasta 200 gigabits por segundo (Gb/s) y GPUDirect™ transfiere fotogramas de vídeo directamente a la memoria GPU para el procesamiento de IA. Con el EGX A100, las empresas pueden acelerar la implementación de IA en la periferia de forma más segura y eficiente.

Aceleración convergente en la periferia

El interior de la arquitectura NVIDIA Ampere

Participa en este seminario web para aprender las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.