Arquitectura NVIDIA Ampere

El Corazón de los Data Centers Flexibles de Mejor Rendimiento del Mundo

El Núcleo de IA y HPC en el Data Center Moderno

Científicos, investigadores e ingenieros, los da Vincis y Einsteins de nuestro tiempo, están trabajando para resolver los desafíos científicos, industriales y de big data más importantes del mundo con IA y  computación de alto rendimiento (HPC). Mientras tanto, las empresas y las industrias buscan aprovechar el poder de la IA para extraer nuevos conocimientos de conjuntos de datos masivos, tanto en las instalaciones como en el cloud. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, ofrece el próximo gran salto al proporcionar una aceleración inigualable en todas las escalas, lo que permite a estos innovadores hacer el trabajo de su vida.

Innovaciones Revolucionarias

Diseñada con 54 mil millones de transistores, la arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande jamás construido y presenta seis innovaciones revolucionarias clave.

Tensor Cores de Tercera Generación

Introducida por primera vez a la arquitectura NVIDIA Volta™, la tecnología NVIDIA Tensor Core trajo grandes aceleraciones a la IA, acortando el tiempo de entrenamiento de semanas a horas y proporcionando una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones, brindando nueva precisión - Tensor Float (TF32) y coma flotante 64 (FP64) - para acelerar y simplificar la adopción de IA y extender el poder de los núcleos de tensores a HPC.

TF32 funciona igual que el FP32, ofreciendo aceleraciones de hasta 10 veces para IA sin requerir ningún cambio de código. Usando la precisión mixta automática de NVIDIA (NVIDIA Automatic Mixed Precision), los investigadores pueden lograr un rendimiento adicional de 2 veces con solo una línea de código adicional. Y con soporte para bfloat16, INT8 e INT4, los Tensor Cores en las GPU NVIDIA A100 Tensor Core crean un acelerador increíblemente versátil para el entrenamiento y la inferencia de IA. Al llevar la potencia de los núcleos tensoriales al HPC, el A100 también permite operaciones matriciales con total precisión FP64, certificado por IEEE.

Tensor Cores de Tercera Generación
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

Todas las aplicaciones de IA y HPC pueden beneficiarse de la aceleración, pero no todas las aplicaciones necesitan el rendimiento completo de una GPU A100. Con MIG, cada A100 se puede dividir en hasta siete instancias de GPU, completamente aislado y protegido a nivel de hardware con sus propios núcleos de memoria, caché y computación de gran ancho de banda. Ahora, los desarrolladores pueden acceder a la aceleración avanzada para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Y los administradores de TI pueden ofrecer una aceleración de GPU del tamaño adecuado para un uso óptimo y ampliar el acceso a todos los usuarios y aplicaciones en entornos virtualizados y de metal desnudo.

Estructura  Sparsity

Estructura Sparsity

Las redes modernas de inteligencia artificial son cada vez más grandes, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para realizar predicciones e inferencias precisas, y algunos pueden convertirse a ceros para hacer que los modelos sean "escasos" sin comprometer la precisión. Los tensores de color en el A100 pueden ofrecer el doble de rendimiento para modelos dispersos. Aunque es más probable que la característica de dispersión se beneficie de la inferencia de IA, también puede usarse para mejorar el rendimiento del entrenamiento del modelo.

RT Cores de Segunda Generación

Con un rendimiento significativamente más rápido que la generación anterior y la capacidad de ejecutar simultáneamente el ray tracing con capacidades de sombreado o eliminación de ruido, los RT Cores de segunda generación de la arquitectura NVIDIA Ampere en la GPU NVIDIA A40 brindan aceleraciones masivas para cargas de trabajo como la representación fotorrealista de contenido de películas, arquitectura evaluaciones de diseño y prototipos virtuales de diseños de productos. Esta tecnología también acelera la representación del desenfoque de movimiento con ray tracing para obtener resultados más rápidos con mayor precisión visual y puede ejecutar simultáneamente el ray tracing con capacidades de sombreado o eliminación de ruido.

Second-Generation RT Cores
Memoria Más Inteligente y Rápida

Memoria Más Inteligente y Rápida

El A100 está trayendo grandes cantidades de procesamiento a los data center. Para mantener estos mecanismos informáticos totalmente utilizados, tiene 1,5 terabytes por segundo (TB/s) de ancho de banda de memoria, un aumento del 67% con respecto a la generación anterior. Además, el A100 tiene más memoria en el chip, incluido un caché de nivel 2 de 40 megabytes (MB), 7 veces más grande que la generación anterior, para maximizar el rendimiento del procesamiento.

Aceleración Convergente en el Edge

La combinación de la arquitectura NVIDIA Ampere y NVIDIA Mellanox® ConnectX-6® Dx SmartNIC en aceleradores convergentes NVIDIA EGX™ brinda capacidades de aceleración de red y computación sin precedentes para procesar las enormes cantidades de datos que se generan en el edge. Mellanox SmartNIC incluye descargas de seguridad que descifra a velocidades de línea de hasta 200 gigabits por segundo (Gb/s) y GPUDirect™ que transfiere fotogramas de video directamente a la memoria de la GPU para el procesamiento de IA. Con el acelerador convergente EGX, las empresas pueden acelerar la implementación de la IA en el edge de forma más segura y eficiente.

Aceleración Convergente en el Edge

Dentro de la Arquitectura NVIDIA Ampere

Descubra las novedades de la arquitectura NVIDIA Ampere y su implementación en la GPU NVIDIA A100.