Ядра Tensor в архитектуре NVIDIA Volta

Новое поколение технологий глубокого обучения

GPU NVIDIA® Tesla® используют мощность тензорных ядер, революционной технологии, обеспечивающей непревзойденную производительность искусственного интеллекта. Тензорные ядра позволяют ускорять большие матричные операции, которые лежат в основе искусственного интеллекта. С их помощью можно осуществлять умножение матриц со смешанной точностью и сводить вычисления в одну операцию. Благодаря сотням тензорных ядер, работающим параллельно в одном GPU NVIDIA, производительность и энергоэффективность значительно повышаются.

NVIDIA T4 на основе тензорных ядер Turing

РЕВОЛЮЦИОННАЯ ПРОИЗВОДИТЕЛЬНОСТЬ ИНФЕРЕНСА


NVIDIA T4 на основе тензорных ядер Turing

Tesla T4 представляет революционную технологию NVIDIA Turing с тензорными ядрами для самого производительного в мире инференса искусственного интеллекта в операциях с разной точностью. Тензорные ядра Turing обеспечивают инференс всех операций FP32, FP16, INT8 и INT4, демонстрируя огромный скачок производительности по сравнению с графическими ускорителями NVIDIA Pascal®.

САМАЯ ИННОВАЦИОННАЯ ПЛАТФОРМА ГЛУБОКОГО ОБУЧЕНИЯ

T4 обеспечивает революционную производительность инференса в операциях FP32, FP16, INT8 и INT4. T4 обладает самой высокой производительностью инференса в мире, обеспечивая 130 тера-операций INT8 в секунду и 260 тера-операций INT4 в секунду. Ускоритель до 40 раз энергоэффективнее CPU, а его уровень энергопотребления составляет 60 % по сравнению с процессором. Это идеальное решение с уровнем энергопотребления 75 Вт для горизонтально-масштабируемых серверов в конечных устройствах.

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

NVIDIA V100 GPU на основе тензорных ядер Volta

ВЫСОЧАЙШАЯ В МИРЕ ПРОИЗВОДИТЕЛЬНОСТЬ ДЛЯ ЗАДАЧ ГЛУБОКОГО ОБУЧЕНИЯ


NVIDIA V100 GPU на основе тензорных ядер Volta

Предназначенные специально для задач глубокого обучения, тензорные ядра обеспечивают революционную производительность, демонстрируя увеличение пиковых показателей Терафлопс для тренировки алгоритмов в 12 раз, а для инференса в 6 раз по сравнению с архитектурой предыдущего поколения NVIDIA Pascal™. Эта ключевая возможность позволяет Volta обеспечивать 3-х кратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения Pascal.

Каждое из 640 тензорных ядер в Tesla V100 может обрабатывать матрицу 4x4, имея собственные пути передачи данных, что позволяет осуществлять вычисления с плавающей точкой с самой высокой в мире скоростью при максимальной энергоэффективности.

ПРОРЫВ В ОБЛАСТИ ТРЕНИРОВКИ НЕЙРОСЕТЕЙ И ИНФЕРЕНСА

Deep Learning Training in Less Than a Workday

GPU Volta имеет 640 тензорных ядер, каждое из которых выполняет 64 операции FMA со смешанной точностью за такт. Это обеспечивает производительность в 125 Терафлопс в задачах тренировки алгоритмов и инференса. Это означает, что разработчики могут запускать тренировку алгоритмов глубокого обучения, используя вычисления смешанной точности (FP16 и FP32). Это приводит к 3-х кратному ускорению производительности по сравнению с архитектурой предыдущего поколения и сходимости ожидаемых уровней точности нейросети. Подобный 3-х кратный прирост производительности является ключевым достижением технологии тензорных ядер. Теперь вычисления для задач глубокого обучения занимают всего несколько часов.

27X Higher Throughput than CPU Server on Deep Learning Inference

В задачах инференса Tesla V100 обеспечивает более чем 3-х кратный прирост производительности по сравнению с решениями предыдущего поколения. Tesla V100 осуществляет операции в 47 раз быстрее сервера на базе CPU. Подобное ускорение по большей части объясняется тем, что тензорные ядра ускоряют выполнение инференса за счет операций смешанной точности и использования программируемого ускорителя инференса NVIDIA TensorRT™.

Значительный прирост вычислительной производительности

Читайте техническую статью о ядрах Tensor и архитектуре NVIDIA Volta.