Tensor Cores de NVIDIA

Aceleración sin precedentes para HPC e IA

Tensor Cores permite la computación de precisión mixta, con una adaptación dinámica de los cálculos para acelerar el rendimiento y preservar la precisión. La última generación amplía estas aceleraciones a una gama completa de cargas de trabajo. Desde aceleraciones 10 veces superiores con respecto a la velocidad de entrenamiento de IA con Tensor Float 32 (TF32), una nueva y revolucionaria precisión, hasta frecuencias 2,5 veces superiores para la computación de alto rendimiento con coma flotante de 64 (FP64), NVIDIA Tensor Cores ofrece nuevas capacidades a todas las cargas de trabajo.

Entrenamiento de aprendizaje profundo revolucionario

Entrenamiento de aprendizaje profundo revolucionario

La complejidad de los modelos de IA sigue disparándose a medida que se enfrenta a desafíos de nivel superior, como una IA conversacional precisa y sistemas de recomendación profundos. Los modelos de IA conversacionales como Megatron son cientos de veces más grandes y complejos que los modelos de clasificación de imágenes como ResNet-50. Entrenar estos modelos masivos con la precisión de FP32 puede llevar días o incluso semanas. Tensor Cores de las GPU NVIDIA proporcionan un rendimiento de orden de magnitud mayor con precisiones reducidas como TF32 y FP16. Y con soporte directo en frameworks nativos a través de las bibliotecas de NVIDIA CUDA-X libraries, la implementación es automática, lo que reduce drásticamente los tiempos de entrenamiento a convergencia mientras mantiene la precisión

Tensor Cores permitió a NVIDIA obtener MLPerf 0.6, la primera prueba de características para la formación de IA de todo el sector.

Acelera la inferencia de aprendizaje profundo

Acelera la inferencia de aprendizaje profundo

Un gran acelerador de inferencia de IA no solo debe ofrecer un gran rendimiento, sino también la versatilidad de acelerar diversas redes neuronales, junto con la programación para permitir a los desarrolladores crear nuevas. La baja latencia a un alto rendimiento y maximizar la utilización son los requisitos de rendimiento más importantes de la implementación confiable de la inferencia. Los núcleos NVIDIA Tensor ofrecen una gama completa de precisiones (TF32, FP16, INT8 e INT4) para proporcionar versatilidad y rendimiento inigualables

Tensor Cores permitió a NVIDIA obtener MLPerf Inference 0.5,, la primera prueba de características para la interferencia de IA detodo el sector.

Computación de alto rendimiento avanzada

Computación de alto rendimiento avanzada

La HPC es un pilar fundamental de la ciencia moderna. Para desbloquear descubrimientos de próxima generación, los científicos utilizan simulaciones para comprender mejor moléculas complejas para el descubrimiento de fármacos, la física para fuentes potenciales de energía y los datos atmosféricos para predecir y prepararse mejor para patrones climáticos extremos. Tensor Cores de NVIDIA ofrece una gama completa de precisiones, incluida FP64, para acelerar la computación científica con la mayor precisión necesaria.

El NVIDIA HPC SDK es un conjunto completo de compiladores, bibliotecas y herramientas esenciales para desarrollar aplicaciones HPC para la plataforma NVIDIA.

Tensor Cores de A100

Tercera Generación

La tecnología Tensor Core de NVIDIA ha acelerado de forma espectacular la IA, lo que reduce los tiempos de entrenamiento de semanas a horas y proporciona una aceleración masiva a la inferencia. La arquitectura NVIDIA Ampere ofrece un enorme aumento del rendimiento y ofrece nuevas precisiones para cubrir todo el espectro requerido por los investigadores (TF32, FP64, FP16, INT8 e INT4), lo que acelera y simplifica la adopción de IA y amplia la potencia de los Tensor Cores de NVIDIA a HPC.

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

A medida que las redes y conjuntos de datos de IA continúan expandiéndose exponencialmente, su necesidad de computación ha crecido de manera similar. Las matemáticas de menor precisión han aportado enormes aceleraciones de rendimiento, pero históricamente han requerido algunos cambios de código. A100 ofrece una nueva precisión, Tensor Float 32 (TF32), que funciona igual que FP32 a la vez que aporta aceleraciones de hasta 20 veces la velocidad para la IA, sin necesidad de ningún cambio de código.

Tensor Cores de FP64

Tensor Cores de FP64

A100 aporta la potencia Tensor Cores a HPC, proporcionando el mayor hito desde la introducción de la computación mediante GPU de doble precisión para HPC. Al habilitar las operaciones de matriz con precisión FP64, ahora toda una gama de aplicaciones HPC que necesitan matemáticas de doble precisión puede obtener un aumento de 2,5 veces en el rendimiento y la eficiencia en comparación con las generaciones anteriores de GPU.

TENSOR CORES DE FP16

TENSOR CORES DE FP16

A100 lleva la potencia de Tensor Cores a FP16 para el aprendizaje profundo, proporcionando una aceleración al doble sobre la misma operación en NVIDIA Volta™ para operaciones de gráficos de precisión única. Esto aumenta espectacularmente el rendimiento y reduce el tiempo de convergencia.

Precisión INT8

Precisión INT8

Introducido por primera vez en NVIDIA Turing, los Tensor Cores INT8 aceleran de forma espectacular el rendimiento de la inferencia y ofrecen enormes aumentos en la eficiencia. INT8 en la arquitectura NVIDIA Ampere ofrece 10 veces el rendimiento comparable de Volta para implementaciones de producción. Esto demuestra lo versátil que es la plataforma de computación para cargas de trabajo de gran lote y en tiempo real en centros de datos de núcleo y perimetrales

Tensor Cores de Turing

Segunda Generación

La tecnología Tensor Core de NVIDIA Turing™ cuenta con computación multiprecisión para una inferencia de IA eficiente. Los Tensor Core de Turing proporcionan una gama completa de precisión para entrenamiento de aprendizaje profundo e inferencia, desde FP32 a FP16 o INT8, además de INT4, para obtener incrementos considerables de rendimiento en relación con las GPU NVIDIA Pascal™.

Tensor Cores de Turing
Volta Tensor Cores

Volta Tensor Cores

Primera generación

Diseñados específicamente para aprendizaje profundo, los Tensor Core de primera generación en NVIDIA Volta™ ofrecen un rendimiento innovador con multiplicación de matriz de precisión mixta en FP16 y FP32: pico de teraFLOPS (TFLOPS) hasta 12 veces mayor para entrenamiento y 6 veces para inferencia sobre NVIDIA Pascal. Este potencial clave permite que Volta ofrezca una aceleración que triplica el rendimiento en el entrenamiento e inferencia respecto a Pascal.

La plataforma de centro de datos de IA y HPC integral más potente

Los Tensor Cores son elementos esenciales de la pila de soluciones del centro de datos de NVIDIA completa que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados de NGC. La plataforma de IA y HPC integral más potente, permite a los investigadores ofrecer resultados en el mundo real e implementar soluciones en producción a escala.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
Precisiones compatibles con Tensor Core FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisiones compatibles con CUDA® Core FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

Explora NVIDIA Tensor Cores

Participa en este seminario web para aprender lo que se necesita para lograr un rendimiento óptimo en las GPU NVIDIA Tensor Core.