Тензорные ядра NVIDIA

Непревзойденное ускорение для HPC и ИИ

Тензорные ядра поддерживают операции с различной точностью и динамически оптимизируют вычисления, чтобы повысить производительность, не меняя точности конечных результатов. Новое поколение тензорных ядер стало еще быстрее, чем когда-либо, в широком спектре задач ИИ и высокопроизводительных вычислений. Тензорные ядра NVIDIA обеспечивают новые возможности для любых нагрузок: ускорение тренировки нейросетей типа трансформер достигает шестикратного, а производительность по всем приложениям вырастает в три раза.

Тренировка алгоритмов ИИ

Модели ИИ становятся все более сложными, так как предназначены для таких задач, как, например, разговорный ИИ. Тренировка таких моделей с FP32 может занять несколько недель или даже месяцев. Тензорные ядра NVIDIA обеспечивают на порядок более высокую производительность при вычислениях с пониженной точностью, например в формате 8 бит с плавающей точкой (FP8) в Transformer Engine, Tensor Float 32 (TF32) и FP16. Прямая поддержка в нативных фреймворках через библиотеки CUDA-X^™ обеспечивает автоматическое внедрение пониженной точности, что позволяет добиваться сходимости значительно быстрее, сохраняя точность конечных результатов.

Тензорные ядра позволили NVIDIA поставить рекорд по обучению в отраслевом бенчмарке MLPerf.

Инференс ИИ

Эффективный ускоритель инференса ИИ должен отличаться не только отличной производительностью, но также универсальностью для работы с различными нейронными сетями и программируемостью – для создания новых. Низкая задержка при высокой пропускной способности и максимальная утилизация — вот важнейшие требования к производительности для эффективного инференса. Тензорные ядра NVIDIA позволяют выполнять операции различной точности: TF32, bfloat16, FP16, FP8 и INT8, обеспечивая исключительную универсальность и производительность.

Тензорные ядра позволили NVIDIA поставить рекорд по инференсу в отраслевом бенчмарке MLPerf.

Высокопроизводительные вычисления

HPC — это фундамент современной науки. Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска потенциальных источников энергии и атмосферные данные — для разработки точных прогнозов и подготовки к экстремальным погодным условиям. Тензорные ядра Turing поддерживают все операции, включая FP64, и ускоряют вычисления, сохраняя необходимую точность.

SDK для HPC – это набор основных компиляторов, библиотек и инструментов для разработки HPC-приложений на платформе NVIDIA.

Тензорные ядра NVIDIA H100

Четвертое поколение

С появлением тензорных ядер пиковая производительность графических процессоров NVIDIA увеличилась в 60 раз, сделав ИИ- и HPC-вычисления доступными для более широкого круга пользователей. Архитектура NVIDIA Hopper™ представляет тензорные ядра четвертого поколения с модулем Transformer Engine, использующим новый формат 8 бит с плавающей точкой (FP8). Это позволяет достичь в 6 раз более высокой производительности по сравнению с форматом FP16 при обучении моделей с триллионами параметров. В сочетании с трехкратным увеличением производительности при использовании форматов TF32, FP64, FP16 и INT8, тензорные ядра Hopper обеспечивают максимальное ускорение для всех нагрузок.

ПОДРОБНЕЕ ОБ АРХИТЕКТУРЕ NVIDIA HOPPER

FP8
TF32
FP64
FP16
INT8

FP8

Из-за больших объемов математических вычислений время обучения сетей-трансформеров растягивается на месяцы. Вычисления в новом формате точности FP8 на архитектуре Hopper выполняются в 6 раз быстрее, чем вычисления в формате FP16 на архитектуре Ampere. Формат FP8 используется в модуле Transformer Engine, объединяющем тензорные ядра Hopper и предназначенном специально для ускорения обучения моделей типа «трансформер». Тензорные ядра Hopper способны смешивать форматы FP8 и FP16, что позволяет существенно ускорить ИИ-вычисления при обучении трансформеров, при этом сохраняя требуемую точность. FP8 также позволяет значительно ускорить инференс больших языковых моделей – производительность при этом будет до 30 раз выше, чем с архитектурой Ampere.

TF32

Наборы данных и модели ИИ увеличиваются в геометрической прогрессии, и, соответственно, растут требования к вычислительной мощности. Вычисления с пониженной точностью позволяют значительно повысить производительность, но требуют некоторых изменений в коде. Ускоритель H100 поддерживает точность TF32, которая работает аналогично FP32 и до 3 раз ускоряет обработку ИИ по сравнению с тензорными ядрами NVIDIA Ampere™, не требуя изменений в коде.

FP64

H100 продолжает обеспечивать мощь тензорных ядер для HPC – с еще большей производительностью, чем когда-либо. Производительность H100 в вычислениях формата FP64 в 3 раза выше по сравнению с решениями предыдущего поколения. Это еще больше ускоряет широкий спектр HPC-приложений, требующих математики с двойной точностью.

FP16

Тензорные ядра H100 ускоряют вычисления формата FP16 при глубоком обучении, обеспечивая трехкратный прирост производительности по сравнению с тензорными ядрами в архитектуре NVIDIA Ampere. Это значительно повышает производительность и ускоряет сходимость.

INT8

Впервые представленные в NVIDIA Turing™, тензорные ядра INT8 значительно ускоряют инференс и повышают эффективность. При развертывании приложений производительность архитектуры NVIDIA Hopper в операциях INT8 в 3 раза выше, чем у тензорных ядер предыдущего поколения. Это универсальность обеспечивает ведущую в отрасли производительность как для обработки больших объемов данных, так и при выполнении задач в реальном времени в основных и периферийных дата-центрах.

Тензорные ядра в архитектуре NVIDIA Ampere

Третье поколение

Опираясь на эти инновации, тензорные ядра в архитектуре NVIDIA Ampere предоставляют поддержку операций TF32 и FP64, ускоряя и упрощая внедрение ИИ и обеспечивая возможности тензорных ядер для HPC. Благодаря поддержке операций bfloat16, INT8 и INT4 эти тензорные ядра третьего поколения создают универсальный ускоритель как для тренировки ИИ, так и для инференса.

ПОДРОБНЕЕ ОБ АРХИТЕКТУРЕ NVIDIA AMPERE

Тензорные ядра NVIDIA Turing

Второе поколение

Архитектура NVIDIA Turing^™ с тензорными ядрами обеспечивает вычисления с произвольной точностью для эффективного инференса ИИ. Тензорные ядра Turing обеспечивают глубокое обучение и инференс в форматах FP32, FP16, INT8 и INT4, демонстрируя огромный скачок производительности по сравнению с графическими ускорителями NVIDIA Pascal^™.

ПОДРОБНЕЕ ОБ АРХИТЕКТУРЕ TURING

Тензорные ядра в архитектуре NVIDIA Volta

Первое поколение

Предназначенные специально для задач глубокого обучения тензорные ядра первого поколения в архитектуре NVIDIA Volta^™ обеспечивают высокую производительность для умножения матриц FP16 и FP32: повышают пиковые показатели Терафлопс для тренировки алгоритмов до 12 раз, а для инференса до 6 раз по сравнению с NVIDIA Pascal. Эта ключевая возможность позволяет Volta обеспечивать трехкратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения Pascal.

ПОДРОБНЕЕ ОБ АРХИТЕКТУРЕ VOLTA

Самая производительная комплексная платформа для ИИ и HPC в дата-центре

Тензорные ядра – основная часть комплексного решения NVIDIA для дата-центров, которое содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из каталога NVIDIA NGC^™. Самая производительная комплексная платформа для ИИ и HPC позволяет получать результаты в реальном времени и разворачивать решения на различных устройствах.

	Hopper	Ampere	Turing	Volta
Операции, поддерживаемые тензорными ядрами	FP64, TF32, bfloat16, FP16, FP8, INT8	FP64, TF32, bfloat16, FP16, INT8, INT4, INT1	FP16, INT8, INT4, INT1	FP16
Операции, поддерживаемые ядрами CUDA^®	FP64, FP32, FP16, bfloat16, INT8	FP64, FP32, FP16, bfloat16, INT8	FP64, FP32, FP16, INT8	FP64, FP32, FP16, INT8

Данные спецификации являются предварительными и могут быть изменены.

Подробный обзор архитектуры NVIDIA Hopper

ЧИТАТЬ СТАТЬЮ