Los núcleos Tensor permiten la computación de precisión mixta al adaptar cálculos de forma dinámica para acelerar el rendimiento, al tiempo que se preserva la precisión y se proporciona una seguridad mejorada. La última generación de núcleos Tensor es más rápida que nunca en una amplia gama de tareas de IA y computación de alto desempeño (HPC). Desde el entrenamiento de modelos de IA de billones de parámetros hasta el logro de un desempeño de inferencia innovador, los núcleos Tensor de NVIDIA aceleran todas las cargas de trabajo para las fábricas de IA modernas.
La plataforma NVIDIA Rubin presenta núcleos Tensor mejorados de quinta generación. Diseñados para acelerar las fábricas de IA modernas, optimizan la compatibilidad con la aritmética NVFP4 y FP8 de precisión estrecha de 4 bits. Al integrar estrechamente estos núcleos Tensor con unidades de funciones especiales expandidas dentro de los multiprocesadores de streaming de NVIDIA Rubin, la plataforma acelera significativamente los mecanismos de atención y las rutas de computación dispersas, lo que aumenta la densidad aritmética y la eficiencia energética sin comprometer la precisión de los modelos.
La GPU NVIDIA Rubin impulsa la próxima generación de la IA de agentes y cuenta con un motor Transformer de 50 petaFLOPS que aprovecha los núcleos Tensor de quinta generación y la precisión NVFP4 para maximizar la eficiencia de la inferencia. Este salto arquitectónico escala a la perfección a 3600 PFLOPS para la inferencia de NVFP4 en el sistema NVIDIA Vera Rubin NVL72, lo que ofrece el rendimiento masivo esencial para los modelos de razonamiento en tiempo real.
Las arquitecturas NVIDIA Blackwell y Rubin pueden emular operaciones de matriz FP32 y FP64 descomponiendo valores de entrada y aprovechando los núcleos Tensor de alto rendimiento y menor precisión. Este enfoque puede aumentar significativamente el desempeño y la eficiencia energética a la vez que iguala o incluso supera la precisión nativa de IEEE754. Al utilizar algoritmos complejos basados en software y operaciones de punto fijo, la emulación proporciona una alternativa controlada y altamente eficiente a los métodos tradicionales de ejecución de hardware de mayor precisión.
La arquitectura NVIDIA Blackwell ofrece una aceleración de 30 veces en comparación con la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. Este aumento del desempeño es posible con la quinta generación de núcleos Tensor. Los núcleos Tensor NVIDIA Blackwell agregan nuevas precisiones, incluidos formatos de microescalado definidos por la comunidad, lo que brinda una mejor precisión y facilita el reemplazo para obtener mayores precisiones.
A medida que los modelos de IA generativa explotan en tamaño y complejidad, es crítico mejorar el desempeño del entrenamiento y la inferencia. Para satisfacer estas necesidades de computación, los núcleos Tensor NVIDIA Blackwell admiten nuevos formatos y precisiones de cuantificación, incluidos los formatos de microescala definidos por la comunidad.
El Transformer Engine de segunda generación usa la tecnología NVIDIA Blackwell Tensor Core personalizada combinada con las innovaciones del framework NVIDIA® TensorRT™-LLM y NeMo™ para acelerar la inferencia y el entrenamiento para grandes modelos de lenguaje (LLM) y modelos de combinación de expertos (MoE). El Transformer Engine funciona con la precisión FP4 de los núcleos Tensor, lo que duplica el desempeño y la eficiencia y mantiene una alta precisión para los modelos MoE actuales y de próxima generación.
El Transformer Engine funciona para democratizar los LLM actuales con desempeño en tiempo real. Las empresas pueden optimizar procesos empresariales mediante la implementación de modelos de IA generativa de vanguardia con una economía asequible.
Los núcleos Tensor son componentes esenciales de la solución completa de centro de datos de NVIDIA que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados del catálogo de NVIDIA NGC™. Es la plataforma integral de HPC e IA más potente que les permite a los investigadores lograr resultados del mundo real e implementar soluciones en producción a escala.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Precisiones Compatibles con los Núcleos Tensor | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Precisiones Compatibles con los Núcleos CUDA® | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
*Las especificaciones preliminares pueden estar sujetas a cambios
Más Información sobre la plataforma NVIDIA Vera Rubin.