ARQUITECTURA NVIDIA AMPERE

El corazón de los centros de datos más escalables y de mayor rendimiento del mundo 

EL NÚCLEO DE LA IA Y LA HPC EN EL CENTRO DE DATOS MODERNO

Resolviendo los desafíos científicos, industriales y empresariales más importantes del mundo con IA y HPC. Visualización de contenido complejo para crear productos de vanguardia, contar historias inmersivas y reimaginar las ciudades del futuro. Extracción de nuevos conocimientos de conjuntos de datos masivos. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, está a la altura de todos estos desafíos, a la vez que proporciona una aceleración inigualable en todas las escalas.

INNOVACIONES PIONERAS

Fabricado con 54 mil millones de transistores, la  arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y cuenta con cinco innovaciones clave.

Tensor Cores de tercera generación

Introducido por primera vez en la arquitectura NVIDIA Volta™, la tecnología NVIDIA Tensor Core ha traído velocidades espectaculares a la IA, reduciendo los tiempos de entrenamiento de semanas a horas y proporcionando una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al aportar nuevas precisiones (Tensor Float (TF32) y coma flotante 64 (FP64)) para acelerar y simplificar la adopción de IA y ampliar la potencia de Tensor Cores a HPC.

TF32 funciona igual que FP32 mientras entrega velocidades hasta 20 veces superiores para la IA sin necesidad de ningún cambio de código. Con NVIDIA Automatic Mixed Precision, los investigadores pueden obtener el doble de rendimiento adicional con precisión mezclada automática y FP16 añadiendo solo un par de líneas de código. Y con soporte para bfloat16, INT8 e INT4, Tensor Cores en las GPU Tensor Coreo de la arquitectura NVIDIA Ampere crean un acelerador increíblemente versátil tanto para la inferencia como para el entrenamiento de la IA. Al traer la potencia de Tensor Cores a HPC, las GPU A100 y A30 también permiten operaciones de matriz con una precisión FP64 completa y certificada por IEEE. 

Tensor Cores de tercera generación
GPU multiinstancia (MIG)

GPU multiinstancia (MIG)

Cada aplicación de IA y HPC puede beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento de una GPU completa. La GPU multi-instancia (MIG) es una característica compatible con las GPU A100 y A30 que permite que las cargas de trabajo compartan la GPU. Con MIG, cada GPU se puede dividir en varias instancias de GPU, totalmente aisladas y protegidas a nivel de hardware con sus propios núcleos de computación, caché y memoria de gran ancho de banda. Ahora, los desarrolladores pueden acceder a una aceleración innovadora para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Además, los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para una utilización óptima y ampliar el acceso a todos los usuarios y aplicaciones en entornos virtualizados y completos

Escasez estructural

Escasez estructural

Las redes de IA modernas son grandes y cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para predicciones e inferencias precisas, y algunos se pueden convertir a ceros para hacer que los modelos sean "escasos" sin comprometer la precisión. Tensor Cores pueden proporcionar un rendimiento hasta 2 veces mayor para los modelos escasos. Mientras que la característica de la escasez beneficia la inferencia de IA, también se puede utilizar para mejorar el rendimiento del entrenamiento del modelo. 

Núcleos RT de segunda generación

Los núcleos RT de segunda generación de la arquitectura NVIDIA Ampere en la NVIDIA A40 ofrecen aceleraciones masivas para cargas de trabajo como el renderizado fotorrealista del contenido de la película, las evaluaciones de diseño arquitectónico y la creación de prototipos virtuales de diseños de productos. Los núcleos RT también aceleran el renderizado de desenfoque de movimiento de trazado de rayos para obtener resultados más rápidos con mayor precisión visual y pueden ejecutar simultáneamente trazado de rayos con las funciones de sombreado y de eliminación de ruido.

Núcleos RT de segunda generación
Memoria más inteligente y rápida

Memoria más inteligente y rápida

A100 trae enormes cantidades de computación a los centros de datos. Para mantener esos motores de computación totalmente utilizados, tiene un ancho de banda de memoria de 2 terabytes por segundo (TB/s) líder en su clase, más del doble con respecto a la generación anterior. Además, el A100 tiene una memoria en chip significativamente mayor, incluida una memoria caché de nivel 2 de 40 megabytes (MB) (7 veces mayor que la generación anterior) para maximizar el rendimiento computacional.

Optimizadas para una implementación a escala

Las ofertas de acelerador convergente de GPU NVIDIA y NVIDIA están diseñadas específicamente para implementarse a escala, llevando redes, seguridad y pequeñas huellas a la nube, el centro de datos y el perímetro.

Potencia optimizada para cualquier servidor

Al ofrecer las necesidades de espacio más pequeño de la cartera, la GPU NVIDIA A2 está optimizada para cargas de trabajo de inferencia e implementaciones en servidores de nivel de entrada limitados por el espacio y los requisitos térmicos, como el borde 5G y los entornos industriales. A2 ofrece un factor de forma de bajo perfil que opera en una envolvente de baja potencia, desde una potencia de diseño térmico (TDP) de 60W hasta 40W, lo que lo hace ideal para cualquier servidor.

GPU NVIDIA A2 con núcleo Tensor
Aceleradores convergentes de NVIDIA

Computación unificada y aceleración de red

En los aceleradores convergentes de NVIDIA, la arquitectura NVIDIA Ampere y la unidad de procesamiento de datos (DPU) NVIDIA BlueField®-2 se unen para ofrecer un rendimiento sin precedentes con seguridad y redes mejoradas para cargas de trabajo impulsadas por IA en computación perimetral, telecomunicaciones y seguridad de red. BlueField-2 combina la potencia de NVIDIA ConnectX®-6 Dx con núcleos Arm® programables y descargas de hardware para el almacenamiento, las redes, la seguridad y la gestión definidos por software. Los aceleradores convergentes de NVIDIA permiten un nuevo nivel de eficiencia y seguridad del centro de datos para cargas de trabajo aceleradas por GPU con uso intensivo de red.

Diseño optimizado de densidad

NVIDIA A16 GPU viene en un diseño de placa de cuatro GPU optimizado para la densidad de usuarios y, en combinación con el software NVIDIA Virtual PC (vPC), permite acceder a ordenadores virtuales con gran riqueza gráfica desde cualquier lugar. Ofrece una frecuencia de fotogramas mayor y una latencia del usuario final más baja en comparación con la VDI solo para CPU con NVIDIA A16, lo que resulta en aplicaciones más sensibles y una experiencia de usuario que no se puede distinguir desde un PC nativo.

Diseño optimizado de densidad
Raíz de confianza de hardware

Implementaciones seguras

Las implementaciones seguras son fundamentales para las operaciones empresariales. La arquitectura NVIDIA Ampere ofrece opcionalmente un arranque seguro a través de la autenticación de código de confianza y protecciones de reversión reforzadas para proteger contra ataques de malware malicioso, lo que evita pérdidas operativas y asegura la aceleración de la carga de trabajo.

El interior de la arquitectura NVIDIA Ampere

Explora las tecnologías de vanguardia de la arquitectura y su gama completa de GPU.