Arquitectura NVIDIA Ampere

El corazón de los centros de datos elásticos de mayor rendimiento del mundo.

Tensor Cores
MIG
NVLink
Dispersión
Núcleos RT
Memoria
Aceleración

Tensor Cores
MIG
NVLink
Dispersión
Núcleos RT
Memoria
Aceleración

El núcleo de IA y HPC en el centro de datos moderno

Resolviendo los desafíos científicos, industriales y empresariales más importantes del mundo con IA y HPC. Visualización de contenido complejo para crear productos de vanguardia, contar historias inmersivas y reimaginar las ciudades del futuro. Extracción de nuevos conocimientos de conjuntos de datos masivos. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, está a la altura de todos estos desafíos, a la vez que proporciona una aceleración inigualable en todas las escalas.

Innovaciones pioneras

Fabricado con 54 mil millones de transistores, la arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y cuenta con cinco innovaciones pioneras.

Tensor Cores de tercera generación

Introducido por primera vez en la arquitectura NVIDIA Volta™, la tecnología NVIDIA Tensor Core ha traído velocidades espectaculares a la IA, reduciendo los tiempos de entrenamiento de semanas a horas y proporcionando una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al aportar nuevas precisiones (Tensor Float 32 (TF32) y coma flotante 64 (FP64) para acelerar y simplificar la adopción de IA y ampliar la potencia de Tensor Cores a HPC.

TF32 funciona igual que FP32 y ofrece velocidades hasta 20 veces superiores para la IA sin necesidad de ningún cambio de código. Con la Precisión combinada y automática de NVIDIA, los investigadores pueden obtener un rendimiento 2X adicional con precisión mixta automática y FP16 agregando solo un par de líneas de código. Y con soporte para bfloat16, INT8 e INT4, Tensor Cores en la arquitectura NVIDIA Ampere, las GPU Tensor Core crean un acelerador increíblemente versátil tanto para el entrenamiento como para la inferencia de IA. Al llevar la potencia de Tensor Cores a las GPU HPC, A100 y A30 también permite operaciones de matriz con una precisión FP64 completa y certificada por IEEE.

Más información sobre Tensor Cores

GPU multiinstancia (MIG)

Cada aplicación de IA y HPC puede beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento de una GPU completa. GPU multiinstancia (MIG) es una característica compatible con las GPU A100 y A30 que permite que las cargas de trabajo compartan la GPU. Con MIG, cada GPU se puede particionar en varias instancias de GPU, totalmente aisladas y protegidas a nivel de hardware con sus propios núcleos de computación, caché y memoria de gran ancho de banda. Ahora, los desarrolladores pueden acceder a una aceleración innovadora para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Además, los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para una utilización óptima y ampliar el acceso a todos los usuarios y aplicaciones en entornos virtualizados y sin sistema operativo.

Más información sobre MIG

NVLink de tercera generación

El escalado de aplicaciones en varias GPU requiere un movimiento de datos extremadamente rápido. La tercera generación de NVIDIA® NVLink® en la arquitectura NVIDIA Ampere duplica el ancho de banda directo de GPU a GPU a 600 gigabytes por segundo (GB/s), casi 10 veces más que PCIe Gen4. Cuando se empareja con la última generación de NVIDIA NVSwitch™, todas las GPU del servidor pueden comunicarse entre sí a la máxima velocidad de NVLink para transferencias de datos increíblemente rápidas.

NVIDIA DGX™A100 y los servidores de otros fabricantes de ordenadores líderes aprovechan la tecnología NVLink y NVSwitch a través de las placas base de NVIDIA HGX™ A100 para la entrega de una mayor escalabilidad para cargas de trabajo de HPC e IA.

Más información sobre Nvlink

Dispersión estructural

Las redes de IA modernas son grandes y cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para predicciones e inferencias precisas, y algunos se pueden convertir en ceros para hacer que los modelos sean "dispersos" sin comprometer la precisión. Los Tensor Cores pueden proporcionar un rendimiento hasta 2 veces mayor para los modelos dispersos. Si bien la función de dispersión beneficia más fácilmente la inferencia de IA, también se puede usar para mejorar el rendimiento del entrenamiento del modelo.

Más información sobre la dispersión

Núcleos RT de segunda generación

Los núcleos RT de segunda generación de la arquitectura NVIDIA Ampere en NVIDIA A40 ofrecen aceleraciones masivas para cargas de trabajo como el renderizado fotorrealista del contenido de la película, las evaluaciones de diseño arquitectónico y la creación de prototipos virtuales de diseños de productos. Los núcleos RT también aceleran el renderizado de desenfoque de movimiento de trazado de rayos para obtener resultados más rápidos con mayor precisión visual y pueden ejecutar simultáneamente trazado de rayos con las funciones de sombreado y de eliminación de ruido.

Más información sobre el trazado de rayos

Memoria más inteligente y rápida

A100 trae enormes cantidades de computación a los centros de datos. Para mantener esos motores de computación en funcionamiento, tiene un ancho de banda de memoria de 2 terabytes por segundo (TB/s) líder en su clase, más del doble que la generación anterior. Además, el A100 tiene una memoria en el chip significativamente mayor, incluida una memoria caché de nivel 2 de 40 megabytes (MB), 7 veces mayor que la generación anterior, para maximizar el rendimiento computacional.

Learn More About Sparsity

Optimizadas para una implementación a escala

Las ofertas de acelerador convergente de GPU NVIDIA y NVIDIA están diseñadas específicamente para implementarse a escala, llevando redes, seguridad y pequeñas huellas a la nube, el centro de datos y el perímetro.

Potencia optimizada para cualquier servidor

Al ofrecer las necesidades de espacio más pequeño de la cartera, la GPU NVIDIA A2 está optimizada para cargas de trabajo de inferencia e implementaciones en servidores de nivel de entrada limitados por el espacio y los requisitos térmicos, como el perímetro 5G y los entornos industriales. A2 ofrece un factor de forma de bajo perfil que opera en una carcasa de baja potencia, desde una potencia de diseño térmico (TDP) de 60W hasta 40W, lo que lo hace ideal para cualquier servidor.

Más información sobre las GPU de bajo consumo

Computación unificada y aceleración de red

En los aceleradores convergentes de NVIDIA, la arquitectura NVIDIA Ampere y la unidad de procesamiento de datos (DPU) NVIDIA BlueField®-2 se unen para ofrecer un rendimiento sin precedentes con seguridad y redes mejoradas para cargas de trabajo con tecnología de GPU en computación perimetral, telecomunicaciones y seguridad de red. BlueField-2 combina la potencia de NVIDIA ConnectX®-6 Dx con núcleos Arm® programables y descargas de hardware para el almacenamiento, las redes, la seguridad y la gestión definidos por software. Los aceleradores convergentes de NVIDIA permiten un nuevo nivel de eficiencia y seguridad del centro de datos para cargas de trabajo aceleradas por GPU con uso intensivo de red.

Más información sobre los aceleradores convergentes de NVIDIA

Diseño de densidad optimizada

La GPU NVIDIA A16 viene en un diseño de placa de GPU cuádruple que está optimizado para la densidad de usuarios y, combinado con el software NVIDIA Virtual PC (vPC), permite acceder a los PC virtuales ricos en gráficos desde cualquier lugar. Ofrece una mayor velocidad de fotogramas y una menor latencia del usuario final frente a VDI solo para CPU con NVIDIA A16, lo que da como resultado aplicaciones con mayor capacidad de respuesta y una experiencia de usuario casi idéntica a la de un PC nativo

Más información sobre Nvidia A16

Implementaciones seguras

Las implementaciones seguras son fundamentales para las operaciones empresariales. La arquitectura NVIDIA Ampere ofrece opcionalmente un arranque seguro a través de la autenticación de código de confianza y protecciones de reversión reforzadas para proteger contra ataques de malware malicioso, lo que evita pérdidas operativas y asegura la aceleración de la carga de trabajo.

Más información sobre la computación perimetral segura

En el interior de la arquitectura NVIDIA Ampere

Explore las tecnologías de vanguardia de la arquitectura NVIDIA Ampere.

Más información