Модели ИИ становятся все более сложными, так как предназначены для таких задач, как, например, разговорный ИИ. Тренировка таких моделей с FP32 может занять несколько недель или даже месяцев. Тензорные ядра NVIDIA обеспечивают на порядок более высокую производительность при вычислениях с пониженной точностью, например в формате 8 бит с плавающей точкой (FP8) в Transformer Engine, Tensor Float 32 (TF32) и FP16. Прямая поддержка в нативных фреймворках через библиотеки CUDA-X™ обеспечивает автоматическое внедрение пониженной точности, что позволяет добиваться сходимости значительно быстрее, сохраняя точность конечных результатов.
Тензорные ядра позволили NVIDIA поставить рекорд по обучению в отраслевом бенчмарке MLPerf.