Los núcleos Tensor permiten la computación de precisión mixta, adaptando dinámicamente los cálculos para acelerar el rendimiento, al tiempo que preservan la precisión y proporcionan una seguridad mejorada. La última generación de núcleos Tensor es más rápida que nunca en una amplia gama de tareas de IA y computación de alto rendimiento (HPC). Desde el entrenamiento de modelos de IA de billones de parámetros hasta el logro de un rendimiento de inferencia innovador, los núcleos Tensor de NVIDIA aceleran todas las cargas de trabajo para las fábricas de IA modernas.
La plataforma NVIDIA Rubin presenta núcleos Tensor mejorados de quinta generación. Diseñados para acelerar las fábricas de IA modernas, optimizan la compatibilidad con la aritmética de precisión estrecha de 4 bits NVFP4 y FP8. Al integrar estrechamente estos núcleos Tensor con unidades de funciones especiales ampliadas dentro de los multiprocesadores de transmisión de NVIDIA Rubin, la plataforma acelera significativamente los mecanismos de atención y las rutas de computación dispersas, lo que aumenta la densidad aritmética y la eficiencia energética sin comprometer la precisión de los modelos.
La GPU NVIDIA Rubin, que impulsa la próxima generación de IA de agentes, cuenta con un Motor Transformer de 50 petaFLOPS que aprovecha los núcleos Tensor de quinta generación y la precisión NVFP4 para maximizar la eficiencia de la inferencia. Este salto arquitectónico escala sin problemas a 3600 PFLOPS para la inferencia NVFP4 en el sistema NVIDIA Vera Rubin NVL72, lo que ofrece el rendimiento masivo esencial para los modelos de razonamiento en tiempo real.
Las arquitecturas NVIDIA Blackwell y Rubin pueden emular operaciones de matriz FP32 y FP64 al descomponer los valores de entrada y aprovechar los núcleos Tensor de alto rendimiento y menor precisión. Este enfoque puede aumentar significativamente el rendimiento y la eficiencia energética, al tiempo que iguala o incluso supera la precisión de IEEE754 nativa. Al utilizar algoritmos complejos e impulsados por software y operaciones de punto fijo, la emulación proporciona una alternativa controlada y altamente eficiente a los métodos de ejecución de hardware tradicionales de mayor precisión.
La arquitectura NVIDIA Blackwell multiplica por 30 la velocidad en comparación con la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. Este aumento del rendimiento es posible con la quinta generación de núcleos Tensor. Los núcleos NVIDIA Blackwell Tensor añaden nuevas precisiones, incluidos formatos de microescalado definidos por la comunidad, lo que proporciona una mejor precisión y facilidad de reemplazo para lograr mayores precisiones.
A medida que los modelos de IA generativa aumentan en tamaño y complejidad, es fundamental mejorar el rendimiento del entrenamiento y la inferencia. Para satisfacer estas necesidades de computación, los núcleos Tensor de NVIDIA Blackwell admiten nuevos formatos y precisiones de cuantificación, incluidos formatos de microescalado definidos por la comunidad.
La segunda generación del motor transformador utiliza la tecnología personalizada Blackwell con núcleo Tensor combinada con las innovaciones NVIDIA® TensorRT™-LLM y NeMo™ Framework para acelerar la inferencia y el entrenamiento de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE). El motor transformador se basa en la precisión FP4 de los Tensor Cores, que duplica el rendimiento y la eficiencia al tiempo que mantiene una alta precisión para los modelos MoE actuales y de próxima generación.
El motor Transformer trabaja para democratizar los LLM actuales con un rendimiento en tiempo real. Las empresas pueden optimizar los procesos empresariales implementando modelos de IA generativa de última generación con una rentabilidad asequible.
Los núcleos Tensor son elementos esenciales de la solución completa del centro de datos de NVIDIA que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados del catálogo de NVIDIA NGC™. La plataforma de IA y HPC integral más potente, permite a los investigadores obtener resultados reales e implementar soluciones en producción a escala.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Precisiones compatibles con Tensor Core | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Precisiones compatibles con CUDA® Core | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
*Las especificaciones preliminares pueden estar sujetas a cambios
Más información sobre la plataforma NVIDIA Vera Rubin.