O Transformer Engine de segunda geração usa a tecnologia personalizada Blackwell Tensor Core combinada com as inovações NVIDIA® TensorRT™-LLM e Framework NeMo™ para acelerar a inferência e o treinamento para grandes modelos de linguagem (LLMs) e modelos de mistura de especialistas (MoE).
Para turbinar a inferência de modelos MoE, os Blackwell Tensor Cores adicionam novas precisões, incluindo novos formatos de microescala definidos pela comunidade, proporcionando alta precisão e facilidade de substituição para precisões maiores. O Transformer Engine do Blackwell utiliza técnicas de escalonamento de granulação fina chamadas escalonamento de microtensor, para otimizar o desempenho e a precisão, permitindo IA de ponto flutuante de 4 bits (FP4). Isso duplica o desempenho e o tamanho dos modelos de próxima geração que a memória pode suportar, mantendo, ao mesmo tempo, alta precisão.