Núcleos Tensor de NVIDIA

Aceleración sin precedentes para la IA de agentes.

Los núcleos Tensor permiten la computación de precisión mixta, adaptando dinámicamente los cálculos para acelerar el rendimiento, al tiempo que preservan la precisión y proporcionan una seguridad mejorada. La última generación de núcleos Tensor es más rápida que nunca en una amplia gama de tareas de IA y computación de alto rendimiento (HPC). Desde el entrenamiento de modelos de IA de billones de parámetros hasta el logro de un rendimiento de inferencia innovador, los núcleos Tensor de NVIDIA aceleran todas las cargas de trabajo para las fábricas de IA modernas.

Introducción
NVIDIA Rubin
NVIDIA Blackwell
Especificaciones

Introducción
NVIDIA Rubin
NVIDIA Blackwell
Especificaciones

Entrenamiento revolucionario en IA

El entrenamiento de modelos de IA generativa de varios billones de parámetros con una precisión de 16 bits puede tardar meses. Los núcleos NVIDIA Tensor cuentan con NVFP4, un formato innovador que ofrece la velocidad y la eficiencia del formato de 4 bits con la precisión de 16 bits. Compatible con el motor Transformer, NVFP4 utiliza el escalado de microbloques para aumentar drásticamente el rendimiento y reducir las huellas de memoria. Con compatibilidad nativa de marcos a través de bibliotecas CUDA-X™, esta innovación reduce los tiempos de entrenamiento a convergencia para la próxima generación de modelos de vanguardia.

Inferencia innovadora

Lograr una baja latencia con un alto rendimiento, al tiempo que se maximiza la utilización, es crítico para una implementación de inferencia fiable. La plataforma NVIDIA Rubin cuenta con un motor Transformer mejorado que aumenta el rendimiento de NVFP4 con núcleos Tensor de quinta generación. Al mismo tiempo, preserva la precisión, lo que permite hasta 50 petaFLOPS (PFLOPS) de inferencia NVFP4. Totalmente compatible con NVIDIA Blackwell, el motor Transformer garantiza actualizaciones sin problemas, por lo que los códigos optimizados previamente pasan sin esfuerzo a NVIDIA Rubin.

Los núcleos Tensor han permitido a NVIDIA ganar las pruebas de referencia de todo el sector MLPerf para la inferencia.

HPC avanzada

La HPC es un pilar fundamental de la ciencia moderna. Para desbloquear los descubrimientos de próxima generación, los científicos utilizan simulaciones para comprender mejor las moléculas complejas para el descubrimiento de fármacos, física para identificar fuentes potenciales de energía y datos atmosféricos para predecir y prepararse mejor para los patrones climáticos extremos. Los núcleos Tensor de NVIDIA ofrecen una gama completa de precisiones, que incluyen FP64 y FP32, para acelerar la computación científica con la mayor precisión necesaria.

El HPC SDK ofrece los compiladores, las bibliotecas y las herramientas esenciales para desarrollar aplicaciones HPC para la plataforma NVIDIA.

núcleos Tensor NVIDIA Rubin

Quinta generación mejorada

La plataforma NVIDIA Rubin presenta núcleos Tensor mejorados de quinta generación. Diseñados para acelerar las fábricas de IA modernas, optimizan la compatibilidad con la aritmética de precisión estrecha de 4 bits NVFP4 y FP8. Al integrar estrechamente estos núcleos Tensor con unidades de funciones especiales ampliadas dentro de los multiprocesadores de transmisión de NVIDIA Rubin, la plataforma acelera significativamente los mecanismos de atención y las rutas de computación dispersas, lo que aumenta la densidad aritmética y la eficiencia energética sin comprometer la precisión de los modelos.

Motor Transformer de 50 PFLOPS
Emulación

Motor Transformer de 50 PFLOPS

La GPU NVIDIA Rubin, que impulsa la próxima generación de IA de agentes, cuenta con un Motor Transformer de 50 petaFLOPS que aprovecha los núcleos Tensor de quinta generación y la precisión NVFP4 para maximizar la eficiencia de la inferencia. Este salto arquitectónico escala sin problemas a 3600 PFLOPS para la inferencia NVFP4 en el sistema NVIDIA Vera Rubin NVL72, lo que ofrece el rendimiento masivo esencial para los modelos de razonamiento en tiempo real.

Emulación

Las arquitecturas NVIDIA Blackwell y Rubin pueden emular operaciones de matriz FP32 y FP64 al descomponer los valores de entrada y aprovechar los núcleos Tensor de alto rendimiento y menor precisión. Este enfoque puede aumentar significativamente el rendimiento y la eficiencia energética, al tiempo que iguala o incluso supera la precisión de IEEE754 nativa. Al utilizar algoritmos complejos e impulsados por software y operaciones de punto fijo, la emulación proporciona una alternativa controlada y altamente eficiente a los métodos de ejecución de hardware tradicionales de mayor precisión.

Tensor Cores de NVIDIA Blackwell

Quinta generación

La arquitectura NVIDIA Blackwell multiplica por 30 la velocidad en comparación con la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. Este aumento del rendimiento es posible con la quinta generación de núcleos Tensor. Los núcleos NVIDIA Blackwell Tensor añaden nuevas precisiones, incluidos formatos de microescalado definidos por la comunidad, lo que proporciona una mejor precisión y facilidad de reemplazo para lograr mayores precisiones.

Obtén más información sobre la arquitectura NVIDIA Blackwell.

Nuevas precisiones
Motor transformador

Nuevos formatos de precisión

A medida que los modelos de IA generativa aumentan en tamaño y complejidad, es fundamental mejorar el rendimiento del entrenamiento y la inferencia. Para satisfacer estas necesidades de computación, los núcleos Tensor de NVIDIA Blackwell admiten nuevos formatos y precisiones de cuantificación, incluidos formatos de microescalado definidos por la comunidad.

Motor transformador de segunda generación

La segunda generación del motor transformador utiliza la tecnología personalizada Blackwell con núcleo Tensor combinada con las innovaciones NVIDIA® TensorRT™-LLM y NeMo™ Framework para acelerar la inferencia y el entrenamiento de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE). El motor transformador se basa en la precisión FP4 de los Tensor Cores, que duplica el rendimiento y la eficiencia al tiempo que mantiene una alta precisión para los modelos MoE actuales y de próxima generación.

El motor Transformer trabaja para democratizar los LLM actuales con un rendimiento en tiempo real. Las empresas pueden optimizar los procesos empresariales implementando modelos de IA generativa de última generación con una rentabilidad asequible.

La plataforma de centro de datos de IA y HPC integral más potente

Los núcleos Tensor son elementos esenciales de la solución completa del centro de datos de NVIDIA que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados del catálogo de NVIDIA NGC™. La plataforma de IA y HPC integral más potente, permite a los investigadores obtener resultados reales e implementar soluciones en producción a escala.

	NVIDIA Rubin	NVIDIA Blackwell
Precisiones compatibles con Tensor Core	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Precisiones compatibles con CUDA^® Core	FP64, FP32, INT32, FP16, BF16	FP64, FP32, FP16, BF16

*Las especificaciones preliminares pueden estar sujetas a cambios

Más información sobre la plataforma NVIDIA Vera Rubin.

Más información