El Transformer Engine de segunda generación utiliza la tecnología Blackwell Tensor Core personalizada combinada con las innovaciones NVIDIA® TensorRT™LLM y Framework NeMo™ para acelerar la inferencia y el entrenamiento para grandes modelos de lenguajes (LLM) y modelos de mezcla de expertos (MoE).
Para potenciar la inferencia de los modelos MoE, Blackwell Tensor Cores agrega nuevas precisiones, incluidos nuevos formatos de microescala definidos por la comunidad, lo que brinda alta precisión y facilidad de reemplazo para precisiones mayores. Transformer Engine de Blackwell utiliza técnicas de escalado de grano fino llamadas escalado de microtensor, para optimizar el rendimiento y la precisión, permitiendo la IA de punto flotante de 4 bits (FP4). Esto duplica el rendimiento y el tamaño de los modelos de próxima generación que la memoria puede admitir manteniendo una alta precisión.