Тензорные ядра поддерживают операции с различной точностью и динамически оптимизируют вычисления, чтобы повысить производительность, не меняя точности конечных результатов. Новое поколение тензорных ядер стало еще быстрее, чем когда-либо, в широком спектре задач ИИ и высокопроизводительных вычислений. Тензорные ядра NVIDIA обеспечивают новые возможности для любых нагрузок: ускорение тренировки нейросетей типа трансформер достигает шестикратного, а производительность по всем приложениям вырастает в три раза.
Модели ИИ становятся все более сложными, так как предназначены для таких задач, как, например, разговорный ИИ. Тренировка таких моделей с FP32 может занять несколько недель или даже месяцев. Тензорные ядра NVIDIA обеспечивают на порядок более высокую производительность при вычислениях с пониженной точностью, например в формате 8 бит с плавающей точкой (FP8) в Transformer Engine, Tensor Float 32 (TF32) и FP16. Прямая поддержка в нативных фреймворках через библиотеки CUDA-X™ обеспечивает автоматическое внедрение пониженной точности, что позволяет добиваться сходимости значительно быстрее, сохраняя точность конечных результатов.
Тензорные ядра позволили NVIDIA поставить рекорд по обучению в отраслевом бенчмарке MLPerf.
Эффективный ускоритель инференса ИИ должен отличаться не только отличной производительностью, но также универсальностью для работы с различными нейронными сетями и программируемостью – для создания новых. Низкая задержка при высокой пропускной способности и максимальная утилизация — вот важнейшие требования к производительности для эффективного инференса. Тензорные ядра NVIDIA позволяют выполнять операции различной точности: TF32, bfloat16, FP16, FP8 и INT8, обеспечивая исключительную универсальность и производительность.
Тензорные ядра позволили NVIDIA поставить рекорд по инференсу в отраслевом бенчмарке MLPerf.
HPC — это фундамент современной науки. Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска потенциальных источников энергии и атмосферные данные — для разработки точных прогнозов и подготовки к экстремальным погодным условиям. Тензорные ядра Turing поддерживают все операции, включая FP64, и ускоряют вычисления, сохраняя необходимую точность.
SDK для HPC – это набор основных компиляторов, библиотек и инструментов для разработки HPC-приложений на платформе NVIDIA.
С появлением тензорных ядер пиковая производительность графических процессоров NVIDIA увеличилась в 60 раз, сделав ИИ- и HPC-вычисления доступными для более широкого круга пользователей. Архитектура NVIDIA Hopper™ представляет тензорные ядра четвертого поколения с модулем Transformer Engine, использующим новый формат 8 бит с плавающей точкой (FP8). Это позволяет достичь в 6 раз более высокой производительности по сравнению с форматом FP16 при обучении моделей с триллионами параметров. В сочетании с трехкратным увеличением производительности при использовании форматов TF32, FP64, FP16 и INT8, тензорные ядра Hopper обеспечивают максимальное ускорение для всех нагрузок.
Из-за больших объемов математических вычислений время обучения сетей-трансформеров растягивается на месяцы. Вычисления в новом формате точности FP8 на архитектуре Hopper выполняются в 6 раз быстрее, чем вычисления в формате FP16 на архитектуре Ampere. Формат FP8 используется в модуле Transformer Engine, объединяющем тензорные ядра Hopper и предназначенном специально для ускорения обучения моделей типа «трансформер». Тензорные ядра Hopper способны смешивать форматы FP8 и FP16, что позволяет существенно ускорить ИИ-вычисления при обучении трансформеров, при этом сохраняя требуемую точность. FP8 также позволяет значительно ускорить инференс больших языковых моделей – производительность при этом будет до 30 раз выше, чем с архитектурой Ampere.
Наборы данных и модели ИИ увеличиваются в геометрической прогрессии, и, соответственно, растут требования к вычислительной мощности. Вычисления с пониженной точностью позволяют значительно повысить производительность, но требуют некоторых изменений в коде. Ускоритель H100 поддерживает точность TF32, которая работает аналогично FP32 и до 3 раз ускоряет обработку ИИ по сравнению с тензорными ядрами NVIDIA Ampere™, не требуя изменений в коде.
H100 продолжает обеспечивать мощь тензорных ядер для HPC – с еще большей производительностью, чем когда-либо. Производительность H100 в вычислениях формата FP64 в 3 раза выше по сравнению с решениями предыдущего поколения. Это еще больше ускоряет широкий спектр HPC-приложений, требующих математики с двойной точностью.
Тензорные ядра H100 ускоряют вычисления формата FP16 при глубоком обучении, обеспечивая трехкратный прирост производительности по сравнению с тензорными ядрами в архитектуре NVIDIA Ampere. Это значительно повышает производительность и ускоряет сходимость.
Впервые представленные в NVIDIA Turing™, тензорные ядра INT8 значительно ускоряют инференс и повышают эффективность. При развертывании приложений производительность архитектуры NVIDIA Hopper в операциях INT8 в 3 раза выше, чем у тензорных ядер предыдущего поколения. Это универсальность обеспечивает ведущую в отрасли производительность как для обработки больших объемов данных, так и при выполнении задач в реальном времени в основных и периферийных дата-центрах.
Опираясь на эти инновации, тензорные ядра в архитектуре NVIDIA Ampere предоставляют поддержку операций TF32 и FP64, ускоряя и упрощая внедрение ИИ и обеспечивая возможности тензорных ядер для HPC. Благодаря поддержке операций bfloat16, INT8 и INT4 эти тензорные ядра третьего поколения создают универсальный ускоритель как для тренировки ИИ, так и для инференса.
Архитектура NVIDIA Turing™ с тензорными ядрами обеспечивает вычисления с произвольной точностью для эффективного инференса ИИ. Тензорные ядра Turing обеспечивают глубокое обучение и инференс в форматах FP32, FP16, INT8 и INT4, демонстрируя огромный скачок производительности по сравнению с графическими ускорителями NVIDIA Pascal™.
Предназначенные специально для задач глубокого обучения тензорные ядра первого поколения в архитектуре NVIDIA Volta™ обеспечивают высокую производительность для умножения матриц FP16 и FP32: повышают пиковые показатели Терафлопс для тренировки алгоритмов до 12 раз, а для инференса до 6 раз по сравнению с NVIDIA Pascal. Эта ключевая возможность позволяет Volta обеспечивать трехкратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения Pascal.
Тензорные ядра – основная часть комплексного решения NVIDIA для дата-центров, которое содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из каталога NVIDIA NGC™. Самая производительная комплексная платформа для ИИ и HPC позволяет получать результаты в реальном времени и разворачивать решения на различных устройствах.
Данные спецификации являются предварительными и могут быть изменены.