Тензорные ядра NVIDIA

Непревзойденное ускорение для HPC и ИИ

Тензорные ядра поддерживают операции с различной точностью и динамически оптимизируют вычисления, чтобы повысить производительность, не меняя точности конечных результатов. Новое поколение тензорных ядер расширяет эти возможности для целого ряда нагрузок. Тензорные ядра NVIDIA обеспечивают новые возможности для любых нагрузок: ускорение тренировки алгоритмов ИИ в 10 раз с Tensor Float 32 (TF32) и высокопроизводительных вычислений в 2,5 раза с FP64.

Передовые возможности для тренировки алгоритмов глубокого обучения

Передовые возможности для тренировки алгоритмов глубокого обучения

Модели ИИ становятся все более сложными, так как разрабатываются для таких задач, как разговорный ИИ и рекомендательные системы на базе алгоритмов глубокого обучения. Модели для разговорного ИИ, например Megatron, в сотни раз больше и сложнее, чем модель классификации изображений ResNet-50. Тренировка таких моделей с FP32 может занять несколько дней или даже недель. Тензорные ядра в ускорителе NVIDIA значительно повышают производительность благодаря пониженной точности, например, TF32 и FP16. Прямая поддержка в нативных фреймворках через библиотеки NVIDIA CUDA-X™ ™ libraries, обеспечивает автоматическое внедрение пониженной точности, что позволяет добиваться сходимости значительно быстрее, сохраняя точность конечных результатов.

Тензорные ядра позволили NVIDIA поставить рекорд в MLPerf 0.6, первом отраслевом бенчмарке для обучения алгоритмов ИИ.

Ускорения инференса глубокого обучения

Ускорения инференса глубокого обучения

Эффективный ускоритель инференса ИИ должен отличаться не только отличной производительностью, но также универсальностью для работы с различными нейронными сетями и программируемостью — для создания новых. Низкая задержка при высокой пропускной способности и максимальная утилизация — вот важнейшие требования к производительности для эффективного инференса. Тензорные ядра NVIDIA позволяют выполнять операции различной точности: TF32, FP16, INT8 и INT4, обеспечивая исключительную универсальность и производительность.

Тензорные ядра позволили NVIDIA поставить рекорд в MLPerf 0.5, первом отраслевом бенчмарке для инференса ИИ

 

Высокопроизводительные вычисления

Высокопроизводительные вычисления

HPC — это фундамент современной науки. Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска потенциальных источников энергии и атмосферные данные — для разработки точных прогнозов и подготовки к экстремальным погодным условиям. Тензорные ядра NVIDIA поддерживают все операции, включая FP64, и ускоряют вычисления, сохраняя необходимую точность.

SDK NVIDIA для HPC— это набор основных компиляторов, библиотек и инструментов для разработки HPC-приложений для платформы NVIDIA.

Тензорные ядра в A100

Третье поколение

Технология тензорных ядер NVIDIA значительно ускоряет инференс и позволяет натренировать алгоритмы ИИ за несколько часов, а не недель. Архитектура NVIDIA Ampere значительно повышает производительность и позволяет охватить весь спектр операций, необходимых для исследований: TF32, FP64, FP16, INT8 и INT4. Это позволяет ускорить и упростить внедрение ИИ и использовать существующие возможности тензорных ядер NVIDIA для HPC.

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

Наборы данных и модели ИИ увеличиваются в геометрической прогрессии, и, соответственно, растут требования к вычислительной мощности. Вычисления с пониженной точностью позволяют значительно повысить производительность, но требуют некоторых изменений в коде. Ускоритель A100 обеспечивает новую точность Tensor Float 32 (TF32), которая работает аналогично FP32 и до 20 раз ускоряет инференс ИИ, не требуя изменений в коде.

Операции FP64

Операции FP64

A100 brings the power of Tensor Cores to HPC, providing the biggest milestone since the introduction of double-precision GPU computing for HPC. By enabling matrix operations in FP64 precision, a whole range of HPC applications that need double-precision math can now get a 2.5X boost in performance and efficiency compared to prior generations of GPUs.

Тензорные ядра для FP16

Тензорные ядра для FP16

Ускоритель A100 с тензорными ядрами улучшает вычисления FP16 для глубокого обучения, повышая скорость в 2 раза по сравнению с архитектурой NVIDIA Volta для ИИ. Это значительно повышает производительность и ускоряет сходимость.

Целочисленные операции INT8

Целочисленные операции INT8

Поддержка операций INT8, впервые реализованная в архитектуре NVIDIA Turing, значительно ускорила инференс. При развертывании приложений производительность архитектуры NVIDIA Ampere в операциях INT8 в 10 раз выше, чем у Volta. Это демонстрирует универсальность вычислительной платформы как для обработки больших объемов данных и задач в реальном времени, так и для различных дата-центров

Тензорные ядра в архитектуре Turing

Второе поколение

Архитектура NVIDIA Turing™ с тензорными ядрами обеспечивает вычисления с произвольной точностью для эффективного инференса ИИ. Тензорные ядра в архитектуре Turing поддерживают все операции FP32, FP16, INT8 и INT4 для тренировки и инференса глубокого обучения, демонстрируя огромный скачок производительности по сравнению с графическими ускорителями на базе NVIDIA Pascal™.

Тензорные ядра в архитектуре Turing
Тензорные ядра Volta

Тензорные ядра Volta

Первое поколение

Предназначенные специально для задач глубокого обучения тензорные ядра первого поколения в архитектуре NVIDIA Volta™ обеспечивают высокую производительность для умножения матриц FP16 и FP32: повышают пиковые показатели Терафлопс для тренировки алгоритмов до 12 раз, а для инференса до 6 раз по сравнению с NVIDIA Pascal. Эта ключевая возможность позволяет Volta обеспечивать трехкратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения Pascal.

Самая производительная комплексная платформа для дата-центров

Тензорные ядра — это основные элементы стека решений NVIDIA для дата-центра, который включает в себя программно-аппаратное обеспечение, сети, библиотеки и оптимизированные приложения и модели ИИ из NGC. Самая производительная комплексная платформа для ИИ и HPC позволяет получать результаты в реальном времени и разворачивать решения на различных устройствах.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
Операции, поддерживаемые тензорными ядрами FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Операции, поддерживаемые ядрами CUDA® FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

Узнайте больше о тензорных ядрах NVIDIA

Присоединяйтесь к вебинару и узнайте, как достичь оптимальной производительности на GPU NVIDIA с тензорными ядрами.