Tensor Cores de NVIDIA

Aceleración sin precedentes para HPC e IA

Los Tensor Cores permiten la computación de precisión mixta, con una adaptación dinámica de los cálculos para acelerar el rendimiento y preservar la precisión. La última generación de Tensor Cores es más rápida que nunca en una gama más amplia de tareas de IA, así como de computación de alto rendimiento (HPC). Los Tensor Cores de NVIDIA ofrecen nuevas capacidades para todas las cargas de trabajo: desde aceleraciones sextuplicadas en el entrenamiento de redes transformadoras hasta aumentos triplicados del rendimiento en todas las aplicaciones

Formación de IA revolucionaria

Formación de IA revolucionaria

La complejidad de los modelos de IA se dispara a medida que estos se enfrentan a desafíos de nivel superior, como una IA conversacional. Entrenar modelos masivos en FP32 puede llevar semanas o incluso meses. Los Tensor Cores de NVIDIA proporcionan un rendimiento de orden de magnitud superior con precisiones reducidas, como el punto flotante de 8 bits (FP8) en el motor transformador, Tensor Float 32 (TF32) y FP16. Además, con el soporte directo en marcos nativos a través de las bibliotecas CUDA-X, la implementación es automática, lo que reduce drásticamente los tiempos de entrenamiento a convergencia, a la vez que se mantiene la precisión.

Los Tensor Cores han permitido a NVIDIA obtener MLPerf, la prueba de referencia para el entrenamiento de todo el sector.

Inferencia de IA avanzada

Inferencia de IA avanzada

Un gran acelerador de inferencia de IA no solo debe ofrecer un gran rendimiento, sino también la versatilidad de acelerar diversas redes neuronales, así como la programación para permitir que los desarrolladores creen nuevas redes de este tipo. La baja latencia a un alto rendimiento y maximizar la utilización son los requisitos de rendimiento más importantes de la implementación confiable de la inferencia. Los Tensor Cores de NVIDIA ofrecen una gama completa de precisiones (TF32, bfloat16, FP16, FP8 e INT8) para proporcionar versatilidad y rendimiento inigualables.  

Los Tensor Cores han permitido a NVIDIA obtener MLPerf, la prueba de referencia para la inferencia de todo el sector.

HPC avanzada

HPC avanzada

La HPC es un pilar fundamental de la ciencia moderna. Para desbloquear descubrimientos de próxima generación, los científicos utilizan simulaciones para comprender mejor moléculas complejas para el descubrimiento de fármacos, la física para fuentes potenciales de energía y los datos atmosféricos para predecir y prepararse mejor para patrones climáticos extremos. Los Tensor Cores de NVIDIA ofrecen una gama completa de precisiones, como FP64, para acelerar la computación científica con la mayor precisión necesaria.

El HPC SDK ofrece los compiladores, las bibliotecas y las herramientas esenciales para desarrollar aplicaciones HPC para la plataforma NVIDIA.

Tensor Cores H100 de NVIDIA

Cuarta generación

Desde la introducción de la tecnología Tensor Core, las GPU de NVIDIA han multiplicado por 60 su rendimiento máximo, lo que impulsa la democratización de la computación para la IA y HPC. La arquitectura NVIDIA Hopper™ hace avances en los Tensor Cores de cuarta generación con el motor transformador, dado que usa una nueva precisión de punto flotante de 8 bits (FP8) con el fin de ofrecer un rendimiento seis veces mayor que el de los FP16 para el entrenamiento de modelos de parámetro de billones. Junto con un rendimiento tres veces mayor con precisiones de TF32, FP64, FP16 e INT8, los Tensor Cores de Hopper ofrecen las aceleraciones más elevadas en todas las cargas de trabajo.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
Tensor Cores de FP8

FP8

Los tiempos de entrenamiento para las redes de IA transformadoras se extienden a meses debido a una computación grande y dependiente de las matemáticas. La nueva precisión FP8 de Hopper ofrece un rendimiento sextuplicado, en comparación con la de FP16 en Ampere. FP8 se utiliza en el motor transformador, una tecnología Tensor Core de Hopper diseñada específicamente para acelerar el entrenamiento de los modelos transformadores. Los Tensor Cores de Hopper tienen la capacidad de aplicar formatos de precisión combinados de FP8 y FP16. Así, se acelera drásticamente los cálculos de IA para el entrenamiento de los transformadores sin que se pierda la precisión. FP8 también permite aceleraciones masivas en inferencias de modelos de lenguaje de gran tamaño con un rendimiento hasta 30 veces superior que Ampere.

Tensor Float 32

TF32

A medida que las redes y conjuntos de datos de IA continúan expandiéndose exponencialmente, su necesidad de computación ha crecido de manera similar. Las matemáticas de menor precisión han aportado enormes aceleraciones de rendimiento, pero históricamente han requerido algunos cambios de código. H100 admite la precisión TF32, que funciona igual que FP32. Al mismo tiempo, ofrece aceleraciones de IA hasta 3 veces superiores que en los Tensor Cores de NVIDIA Ampere™, sin necesidad de ningún cambio de código.

Tensor Cores de FP64

FP64

H100 aún ofrece la potencia de Tensor Cores a HPC, con más rendimiento que nunca. El rendimiento FP64 de H100 es 3 veces más rápido en comparación con la generación anterior, lo que acelera aún más toda una gama de aplicaciones HPC que necesitan matemáticas de doble precisión.

Tensor Cores de FP16

FP16

Los Tensor Cores H100 aumentan la FP16 para el deep learning, lo que proporciona una aceleración de IA 3 veces superior en comparación con los Tensor Cores de la arquitectura NVIDIA Ampere. Esto aumenta espectacularmente el rendimiento y reduce el tiempo de convergencia.

INT8

INT8

Los Tensor Cores de INT8, presentados por primera vez en NVIDIA Turing™, aceleran drásticamente el rendimiento de la inferencia y ofrecen un aumento espectacular en la eficiencia. INT8 en la arquitectura NVIDIA Hopper ofrece 3 veces el rendimiento comparable de la generación anterior de Tensor Cores para implementaciones de producción. Esta versatilidad permite el rendimiento líder en la industria tanto para cargas de trabajo de gran lote como en tiempo real en centros de datos de núcleo y perimetrales.  

Tensor Cores de la arquitectura NVIDIA Ampere

Tensor Cores de la arquitectura NVIDIA Ampere

Tercera generación

Los Tensor Cores de la arquitectura NVIDIA Ampere se basan en innovaciones previas al aportar nuevas precisiones (TF32 y FP64) para acelerar y simplificar la adopción de IA, así como ampliar la potencia de Tensor Cores a HPC. Con soporte para bfloat16, INT8 e INT4, estos Tensor Cores de tercera generación crean aceleradores increíblemente versátiles tanto para el entrenamiento de IA como para la inferencia.

Tensor Cores de NVIDIA Turing

Segunda generación

La tecnología Tensor Core de NVIDIA Turing cuenta con computación multiprecisión para una inferencia de IA eficiente. Los Tensor Cores de Turing ofrecen una gama de precisión para el entrenamiento y la inferencia de deep learning (FP32, FP16 e INT8, además de INT4). De este modo, se obtienen incrementos considerables de rendimiento en relación con las GPU de NVIDIA Pascal

Tensor Cores de Turing
Tensor Cores de Volta

Tensor Cores de NVIDIA Volta

Primera generación

Diseñados específicamente para el deep learning, los Tensor Core de primera generación en NVIDIA Volta ofrecen un rendimiento innovador con multiplicación de matriz de precisión mixta en FP16 y FP32: pico de teraFLOPS (TFLOPS) hasta 12 veces mayor para entrenamiento y 6 veces para inferencia sobre NVIDIA Pascal. Este potencial clave permite que Volta ofrezca una aceleración que triplica el rendimiento en el entrenamiento e inferencia respecto a Pascal.

La plataforma de centro de datos de IA y HPC integral más potente

Los Tensor Cores son elementos esenciales de la solución del centro de datos de NVIDIA que incorpora hardware, redes, software y bibliotecas, así como modelos y aplicaciones de IA optimizados del catálogo de NVIDIA NGC. La plataforma de IA y HPC integral más potente, permite a los investigadores ofrecer resultados en el mundo real e implementar soluciones en producción a escala.

Hopper Ampere Turing Volta
Precisiones compatibles con Tensor Core FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisiones compatibles con CUDA® Core FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Las especificaciones preliminares pueden estar sujetas a cambios

Sumérgete en la arquitectura NVIDIA Hopper