Núcleos NVIDIA Tensor

Aceleración Sin Precedentes para HPC e IA

Los Núcleos Tensor permiten la computación de precisión mixta, ya que adaptan de forma dinámica los cálculos para acelerar la tasa de transferencia al mismo tiempo que mantienen la precisión. La última generación de Núcleos Tensor es más rápida que nunca en una amplia variedad de tareas de IA y computación de alto rendimiento (HPC). Los Núcleos NVIDIA Tensor ofrecen nuevas capacidades para todas las cargas de trabajo, ya que proporcionan una velocidad 6 veces más alta en el entrenamiento de redes de transformadores y el triple de rendimiento en todas las aplicaciones.

Entrenamiento de IA Revolucionario

Entrenamiento de IA Revolucionario

Los modelos de IA continúan aumentando su complejidad a medida que asumen desafíos más importantes, como la IA conversacional. El entrenamiento de modelos enormes en FP32 puede tomar semanas o incluso meses. Los Núcleos NVIDIA Tensor proporcionan un rendimiento más alto por orden de magnitud con precisiones reducidas, como el punto flotante de 8 bits (FP8) en el Motor de Transformadores, Tensor Float 32 (TF32) y FP16. Además, gracias a la compatibilidad directa en frameworks nativos mediante bibliotecas CUDA-X, la implementación es automática, lo que reduce enormemente los tiempos de entrenamiento a convergencia al mismo tiempo que mantiene la precisión.

Los Núcleos Tensor permitieron a NVIDIA ganar la  evaluación MLPerf para el entrenamiento, que abarca toda la industria.

Inferencia de IA Transformadora

Inferencia de IA Transformadora

Un gran acelerador de inferencia de inteligencia artificial no solo tiene que ofrecer un gran rendimiento, sino también la versatilidad para acelerar diferentes redes neuronales y la capacidad de programación para permitir que los desarrolladores construyan nuevas redes. La latencia baja con una tasa de transferencia alta al mismo tiempo que se maximiza la utilización son los requisitos de rendimiento más importantes para implementar la inferencia de forma confiable. Los Núcleos NVIDIA Tensor ofrecen una gama completa de precisiones (TF32, bfloat16, FP16, FP8 y INT8), a fin de proporcionar un rendimiento y una versatilidad incomparables.  

Los Núcleos Tensor permitieron a NVIDIA ganar la  evaluación MLPerf para la inferencia, que abarca toda la industria.

HPC Avanzada

HPC Avanzada

La HPC es un aspecto básico de la ciencia moderna. Mientras buscan alcanzar los descubrimientos de la próxima generación, los científicos usan las simulaciones a fin de comprender mejor las moléculas complejas para descubrir fármacos, la física para detectar nuevas y posibles fuentes de energía y los datos atmosféricos para realizar mejores predicciones y prepararse ante los patrones climáticos extremos. Los Núcleos NVIDIA Tensor ofrecen una gama completa de precisiones, incluida FP64, para acelerar la computación científica con la precisión más alta necesaria.

El SDK HPC proporciona los compiladores, bibliotecas y herramientas esenciales que permiten desarrollar aplicaciones de HPC para la plataforma de NVIDIA.

Núcleos NVIDIA Tensor H100

Cuarta Generación

Desde la presentación de la tecnología de los Núcleos Tensor, las GPU de NVIDIA han aumentado su rendimiento máximo en 60 veces, lo que impulsa la democratización de la computación para IA y HPC. La arquitectura NVIDIA Hopper™ mejora los Núcleos Tensor de cuarta generación con el Motor de Transformadores usando una nueva precisión de punto flotante de 8 bits (FP8) para ofrecer un rendimiento 6 veces más alto, en comparación con la precisión FP16, para el entrenamiento de modelos con billones de parámetros. Al combinarse con el triple de rendimiento de las precisiones TF32, FP64, FP16 e INT8, los Núcleos Tensor Hopper ofrecen la velocidad más alta para todas las cargas de trabajo.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
Núcleos Tensor con FP8

FP8

Los tiempos de entrenamiento de las redes de IA para Transformadores se extienden a meses debido a la computación grande y limitada por las matemáticas. La precisión FP8 de Hopper ofrece hasta 6 veces más rendimiento que la precisión FP16 de Ampere. FP8 se utiliza en el Motor de Transformadores, una tecnología de los Núcleos Tensor Hopper que se diseñó específicamente para acelerar el entrenamiento de los modelos de Transformadores. Los Núcleos Tensor Hopper tienen la capacidad de aplicar formatos de precisión FP8 y FP16 mixtos para acelerar enormemente los cálculos de IA destinado al entrenamiento de transformadores, al mismo tiempo que mantienen la precisión. FP8 también permite enormes aceleraciones en la inferencia de grandes modelos de idiomas con un rendimiento hasta 30 veces mejor que Ampere.

Tensor Float 32

TF32

A medida que las redes y los conjuntos de datos de IA crecen exponencialmente, su necesidad de computación ha crecido de forma similar. Las matemáticas de menor precisión han dado lugar a enormes aceleraciones de rendimiento, pero históricamente han requerido algunos cambios en el código. H100 es compatible con la precisión TF32, que funciona igual que FP32, al mismo tiempo que proporciona el triple de velocidad de IA, en comparación con los Núcleos Tensor NVIDIA Ampere™, sin necesidad de cambiar el código.

Núcleos Tensor FP64

FP64

H100 continúa entregando la potencia de los Núcleos Tensor a la HPC, con más rendimiento que nunca. El rendimiento de la precisión FP64 de H100 es 3 veces más rápido en comparación con la generación anterior, lo que acelera aún más toda una gama de aplicaciones de HPC que necesitan cálculos de doble precisión.

Núcleos Tensor FP16

FP16

Los Núcleos Tensor H100 potencian la precisión FP16 para deep learning, ya que proporcionan el triple de velocidad de IA, en comparación con los Núcleos Tensor de la arquitectura NVIDIA Ampere. Esto aumenta enormemente la tasa de transferencia y reduce el tiempo de convergencia.

INT8

INT8

Los Núcleos Tensor INT8, que estuvieron disponibles por primera vez en la arquitectura NVIDIA Turing™, aceleran enormemente la tasa de transferencia de inferencia y mejoran enormemente la eficacia. INT8 en la arquitectura NVIDIA Hopper ofrece el triple de rendimiento, en comparación con la generación anterior de Núcleos Tensor para implementaciones de producción. Esta versatilidad permite un rendimiento líder en la industria para cargas de trabajo en tiempo real y en lotes grandes de data centers de edge y core.  

Núcleos Tensor de la Arquitectura NVIDIA Ampere

Núcleos Tensor de la Arquitectura NVIDIA Ampere

3.ª Generación

Los Núcleos Tensor de la arquitectura NVIDIA Ampere se basan en las innovaciones anteriores para aportar nuevas precisiones,TF32 y FP64, que permiten acelerar y simplificar la adopción de IA y extender la potencia de los Núcleos Tensor a la HPC. Además, gracias a la compatibilidad con bfloat16, INT8 y INT4, estos Núcleos Tensor de tercera generación crean aceleradores increíblemente versátiles para la inferencia y el entrenamiento de IA.

Núcleos Tensor NVIDIA Turing

2.ª Generación

La tecnología de los Núcleos Tensor NVIDIA Turing cuenta con la computación de precisión múltiple para una inferencia de IA eficiente. Los Núcleos Tensor Turing proporcionan una gama de precisiones para la inferencia y el entrenamiento de deep learning, desde FP32 hasta FP16, INT8 y INT4, para proporcionar enormes avances en el rendimiento, en comparación con las GPU NVIDIA Pascal.

Núcleos Tensor Turing
Núcleos Tensor Volta

Núcleos Tensor NVIDIA Volta

1.ª Generación

Los Núcleos Tensor de primera generación de NVIDIA Volta se diseñaron específicamente para deep learning. Ofrecen un rendimiento revolucionario con matrices de precisión mixta que se multiplican en FP16 y FP32: una valor pico de teraFLOPS (TFLOPS) hasta 12 veces más alto para el entrenamiento y hasta 6 veces más alto para la inferencia, en comparación con NVIDIA Pascal. Esta capacidad clave permite que Volta proporcione el triple de velocidad para el entrenamiento y la inferencia, en comparación con Pascal.

La Plataforma Integral para Data Centers de HPC e IA Más Potente

Los Núcleos Tensor son los componentes fundamentales de la solución para data centers de NVIDIA que incorpora hardware, redes, software, bibliotecas, y modelos y aplicaciones de IA optimizados del catálogo NVIDIA NGC. Es la plataforma integral de HPC e IA más potente que les permite a los investigadores lograr resultados del mundo real e implementar soluciones en producción a escala.

Hopper Ampere Turing Volta
Precisiones Compatibles con los Núcleos Tensor FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisiones Compatibles con los Núcleos CUDA® FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Las especificaciones preliminares pueden cambiar

Explora en Detalle la Arquitectura NVIDIA Hopper