Núcleos Tensor NVIDIA

Aceleración sin precedentes para IA de agentes.

Los núcleos Tensor permiten la computación de precisión mixta al adaptar cálculos de forma dinámica para acelerar el rendimiento, al tiempo que se preserva la precisión y se proporciona una seguridad mejorada. La última generación de núcleos Tensor es más rápida que nunca en una amplia gama de tareas de IA y computación de alto desempeño (HPC). Desde el entrenamiento de modelos de IA de billones de parámetros hasta el logro de un desempeño de inferencia innovador, los núcleos Tensor de NVIDIA aceleran todas las cargas de trabajo para las fábricas de IA modernas.

Introducción
NVIDIA Rubin
NVIDIA Blackwell
Especificaciones

Introducción
NVIDIA Rubin
NVIDIA Blackwell
Especificaciones

Entrenamiento de IA Revolucionario

El entrenamiento de modelos de IA generativa de múltiples billones de parámetros con precisión de 16 bits puede tomar meses. Los núcleos Tensor de NVIDIA cuentan con NVFP4, un formato innovador que ofrece la velocidad y la eficiencia del formato de 4 bits con la precisión de 16 bits. NVFP4, que es compatible con Transformer Engine, utiliza escalado de microbloques para aumentar drásticamente el rendimiento y reducir las huellas de memoria. Con compatibilidad nativa con framework a través de bibliotecas CUDA-X™, esta innovación reduce los tiempos de entrenamiento hasta la convergencia para la próxima generación de modelos de vanguardia.

Inferencia Innovadora

Lograr una baja latencia con alto rendimiento, a la vez que se maximiza la utilización, es crítico para una implementación de inferencia confiable. La plataforma NVIDIA Rubin cuenta con un motor Transformer mejorado que impulsa el desempeño de NVFP4 con núcleos Tensor de quinta generación. Al mismo tiempo, preserva la precisión, lo que permite una inferencia de NVFP4 de hasta 50 petaFLOPS (PFLOPS). El motor Transformer, que es completamente compatible con NVIDIA Blackwell, garantiza actualizaciones sin fisuras, para que los códigos previamente optimizados pasen sin esfuerzo a NVIDIA Rubin.

Los núcleos Tensor han permitido a NVIDIA ganar puntos de referencia de toda la industria MLPerf para la inferencia.

Advanced HPC

La HPC es un aspecto básico de la ciencia moderna. Con el fin de hacer posibles descubrimientos de última generación, los científicos usan simulaciones para comprender mejor moléculas complejas para el descubrimiento de fármacos, física para identificar fuentes potenciales de energía y datos atmosféricos para predecir y prepararse mejor para patrones climáticos extremos. Los núcleos Tensor de NVIDIA ofrecen una gama completa de precisiones, como FP64 y FP32, para acelerar la computación científica con la más alta precisión necesaria.

El SDK HPC proporciona los compiladores, las bibliotecas y herramientas esenciales que permiten desarrollar aplicaciones de HPC para la plataforma de NVIDIA.

Núcleos Tensor NVIDIA Rubin

Quinta Generación Mejorada

La plataforma NVIDIA Rubin presenta núcleos Tensor mejorados de quinta generación. Diseñados para acelerar las fábricas de IA modernas, optimizan la compatibilidad con la aritmética NVFP4 y FP8 de precisión estrecha de 4 bits. Al integrar estrechamente estos núcleos Tensor con unidades de funciones especiales expandidas dentro de los multiprocesadores de streaming de NVIDIA Rubin, la plataforma acelera significativamente los mecanismos de atención y las rutas de computación dispersas, lo que aumenta la densidad aritmética y la eficiencia energética sin comprometer la precisión de los modelos.

Motor de Transformer de 50 PFLOPS
Emulación

Motor Transformer de 50 PFLOPS

La GPU NVIDIA Rubin impulsa la próxima generación de la IA de agentes y cuenta con un motor Transformer de 50 petaFLOPS que aprovecha los núcleos Tensor de quinta generación y la precisión NVFP4 para maximizar la eficiencia de la inferencia. Este salto arquitectónico escala a la perfección a 3600 PFLOPS para la inferencia de NVFP4 en el sistema NVIDIA Vera Rubin NVL72, lo que ofrece el rendimiento masivo esencial para los modelos de razonamiento en tiempo real.

Emulación

Las arquitecturas NVIDIA Blackwell y Rubin pueden emular operaciones de matriz FP32 y FP64 descomponiendo valores de entrada y aprovechando los núcleos Tensor de alto rendimiento y menor precisión. Este enfoque puede aumentar significativamente el desempeño y la eficiencia energética a la vez que iguala o incluso supera la precisión nativa de IEEE754. Al utilizar algoritmos complejos basados en software y operaciones de punto fijo, la emulación proporciona una alternativa controlada y altamente eficiente a los métodos tradicionales de ejecución de hardware de mayor precisión.

Núcleos Tensor NVIDIA Blackwell

Quinta generación

La arquitectura NVIDIA Blackwell ofrece una aceleración de 30 veces en comparación con la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. Este aumento del desempeño es posible con la quinta generación de núcleos Tensor. Los núcleos Tensor NVIDIA Blackwell agregan nuevas precisiones, incluidos formatos de microescalado definidos por la comunidad, lo que brinda una mejor precisión y facilita el reemplazo para obtener mayores precisiones.

Más Información Sobre la Arquitectura NVIDIA Blackwell

Nuevas precisiones
Motor de Transformadores

Nuevos Formatos de Precisión

A medida que los modelos de IA generativa explotan en tamaño y complejidad, es crítico mejorar el desempeño del entrenamiento y la inferencia. Para satisfacer estas necesidades de computación, los núcleos Tensor NVIDIA Blackwell admiten nuevos formatos y precisiones de cuantificación, incluidos los formatos de microescala definidos por la comunidad.

Transformer Engine de Segunda Generación

El Transformer Engine de segunda generación usa la tecnología NVIDIA Blackwell Tensor Core personalizada combinada con las innovaciones del framework NVIDIA® TensorRT™-LLM y NeMo™ para acelerar la inferencia y el entrenamiento para grandes modelos de lenguaje (LLM) y modelos de combinación de expertos (MoE). El Transformer Engine funciona con la precisión FP4 de los núcleos Tensor, lo que duplica el desempeño y la eficiencia y mantiene una alta precisión para los modelos MoE actuales y de próxima generación.

El Transformer Engine funciona para democratizar los LLM actuales con desempeño en tiempo real. Las empresas pueden optimizar procesos empresariales mediante la implementación de modelos de IA generativa de vanguardia con una economía asequible.

La Plataforma Integral para Data Centers de HPC e IA Más Potente

Los núcleos Tensor son componentes esenciales de la solución completa de centro de datos de NVIDIA que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizados del catálogo de NVIDIA NGC™. Es la plataforma integral de HPC e IA más potente que les permite a los investigadores lograr resultados del mundo real e implementar soluciones en producción a escala.

	NVIDIA Rubin	NVIDIA Blackwell
Precisiones Compatibles con los Núcleos Tensor	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Precisiones Compatibles con los Núcleos CUDA^®	FP64, FP32, INT32, FP16, BF16	FP64, FP32, FP16, BF16

*Las especificaciones preliminares pueden estar sujetas a cambios

Más Información sobre la plataforma NVIDIA Vera Rubin.

Más Información