Los Núcleos Tensor permiten la computación de precisión mixta, ya que adaptan de forma dinámica los cálculos para acelerar la tasa de transferencia al mismo tiempo que mantienen la precisión. La última generación de Núcleos Tensor es más rápida que nunca en una amplia variedad de tareas de IA y computación de alto rendimiento (HPC). Los Núcleos NVIDIA Tensor ofrecen nuevas capacidades para todas las cargas de trabajo, ya que proporcionan una velocidad 6 veces más alta en el entrenamiento de redes de transformadores y el triple de rendimiento en todas las aplicaciones.
Los modelos de IA continúan aumentando su complejidad a medida que asumen desafíos más importantes, como la IA conversacional. El entrenamiento de modelos enormes en FP32 puede tomar semanas o incluso meses. Los Núcleos NVIDIA Tensor proporcionan un rendimiento más alto por orden de magnitud con precisiones reducidas, como el punto flotante de 8 bits (FP8) en el Motor de Transformadores, Tensor Float 32 (TF32) y FP16. Además, gracias a la compatibilidad directa en frameworks nativos mediante bibliotecas CUDA-X™, la implementación es automática, lo que reduce enormemente los tiempos de entrenamiento a convergencia al mismo tiempo que mantiene la precisión.
Los Núcleos Tensor permitieron a NVIDIA ganar la evaluación MLPerf para el entrenamiento, que abarca toda la industria.
Un gran acelerador de inferencia de inteligencia artificial no solo tiene que ofrecer un gran rendimiento, sino también la versatilidad para acelerar diferentes redes neuronales y la capacidad de programación para permitir que los desarrolladores construyan nuevas redes. La latencia baja con una tasa de transferencia alta al mismo tiempo que se maximiza la utilización son los requisitos de rendimiento más importantes para implementar la inferencia de forma confiable. Los Núcleos NVIDIA Tensor ofrecen una gama completa de precisiones (TF32, bfloat16, FP16, FP8 y INT8), a fin de proporcionar un rendimiento y una versatilidad incomparables.
Los Núcleos Tensor permitieron a NVIDIA ganar la evaluación MLPerf para la inferencia, que abarca toda la industria.
La HPC es un aspecto básico de la ciencia moderna. Mientras buscan alcanzar los descubrimientos de la próxima generación, los científicos usan las simulaciones a fin de comprender mejor las moléculas complejas para descubrir fármacos, la física para detectar nuevas y posibles fuentes de energía y los datos atmosféricos para realizar mejores predicciones y prepararse ante los patrones climáticos extremos. Los Núcleos NVIDIA Tensor ofrecen una gama completa de precisiones, incluida FP64, para acelerar la computación científica con la precisión más alta necesaria.
El SDK HPC proporciona los compiladores, bibliotecas y herramientas esenciales que permiten desarrollar aplicaciones de HPC para la plataforma de NVIDIA.
Desde la presentación de la tecnología de los Núcleos Tensor, las GPU de NVIDIA han aumentado su rendimiento máximo en 60 veces, lo que impulsa la democratización de la computación para IA y HPC. La arquitectura NVIDIA Hopper™ mejora los Núcleos Tensor de cuarta generación con el Motor de Transformadores usando una nueva precisión de punto flotante de 8 bits (FP8) para ofrecer un rendimiento 6 veces más alto, en comparación con la precisión FP16, para el entrenamiento de modelos con billones de parámetros. Al combinarse con el triple de rendimiento de las precisiones TF32, FP64, FP16 e INT8, los Núcleos Tensor Hopper ofrecen la velocidad más alta para todas las cargas de trabajo.
Los tiempos de entrenamiento de las redes de IA para Transformadores se extienden a meses debido a la computación grande y limitada por las matemáticas. La precisión FP8 de Hopper ofrece hasta 6 veces más rendimiento que la precisión FP16 de Ampere. FP8 se utiliza en el Motor de Transformadores, una tecnología de los Núcleos Tensor Hopper que se diseñó específicamente para acelerar el entrenamiento de los modelos de Transformadores. Los Núcleos Tensor Hopper tienen la capacidad de aplicar formatos de precisión FP8 y FP16 mixtos para acelerar enormemente los cálculos de IA destinado al entrenamiento de transformadores, al mismo tiempo que mantienen la precisión. FP8 también permite enormes aceleraciones en la inferencia de grandes modelos de idiomas con un rendimiento hasta 30 veces mejor que Ampere.
A medida que las redes y los conjuntos de datos de IA crecen exponencialmente, su necesidad de computación ha crecido de forma similar. Las matemáticas de menor precisión han dado lugar a enormes aceleraciones de rendimiento, pero históricamente han requerido algunos cambios en el código. H100 es compatible con la precisión TF32, que funciona igual que FP32, al mismo tiempo que proporciona el triple de velocidad de IA, en comparación con los Núcleos Tensor NVIDIA Ampere™, sin necesidad de cambiar el código.
H100 continúa entregando la potencia de los Núcleos Tensor a la HPC, con más rendimiento que nunca. El rendimiento de la precisión FP64 de H100 es 3 veces más rápido en comparación con la generación anterior, lo que acelera aún más toda una gama de aplicaciones de HPC que necesitan cálculos de doble precisión.
Los Núcleos Tensor H100 potencian la precisión FP16 para deep learning, ya que proporcionan el triple de velocidad de IA, en comparación con los Núcleos Tensor de la arquitectura NVIDIA Ampere. Esto aumenta enormemente la tasa de transferencia y reduce el tiempo de convergencia.
Los Núcleos Tensor INT8, que estuvieron disponibles por primera vez en la arquitectura NVIDIA Turing™, aceleran enormemente la tasa de transferencia de inferencia y mejoran enormemente la eficacia. INT8 en la arquitectura NVIDIA Hopper ofrece el triple de rendimiento, en comparación con la generación anterior de Núcleos Tensor para implementaciones de producción. Esta versatilidad permite un rendimiento líder en la industria para cargas de trabajo en tiempo real y en lotes grandes de data centers de edge y core.
Los Núcleos Tensor de la arquitectura NVIDIA Ampere se basan en las innovaciones anteriores para aportar nuevas precisiones,TF32 y FP64, que permiten acelerar y simplificar la adopción de IA y extender la potencia de los Núcleos Tensor a la HPC. Además, gracias a la compatibilidad con bfloat16, INT8 y INT4, estos Núcleos Tensor de tercera generación crean aceleradores increíblemente versátiles para la inferencia y el entrenamiento de IA.
La tecnología de los Núcleos Tensor NVIDIA Turing™ cuenta con la computación de precisión múltiple para una inferencia de IA eficiente. Los Núcleos Tensor Turing proporcionan una gama de precisiones para la inferencia y el entrenamiento de deep learning, desde FP32 hasta FP16, INT8 y INT4, para proporcionar enormes avances en el rendimiento, en comparación con las GPU NVIDIA Pascal™.
Los Núcleos Tensor de primera generación de NVIDIA Volta™ se diseñaron específicamente para deep learning. Ofrecen un rendimiento revolucionario con matrices de precisión mixta que se multiplican en FP16 y FP32: una valor pico de teraFLOPS (TFLOPS) hasta 12 veces más alto para el entrenamiento y hasta 6 veces más alto para la inferencia, en comparación con NVIDIA Pascal. Esta capacidad clave permite que Volta proporcione el triple de velocidad para el entrenamiento y la inferencia, en comparación con Pascal.
Los Núcleos Tensor son los componentes fundamentales de la solución para data centers de NVIDIA que incorpora hardware, redes, software, bibliotecas, y modelos y aplicaciones de IA optimizados del catálogo NVIDIA NGC™. Es la plataforma integral de HPC e IA más potente que les permite a los investigadores lograr resultados del mundo real e implementar soluciones en producción a escala.
Las especificaciones preliminares pueden cambiar