GPU NVIDIA A100 с тензорными ядрами

Масштабируемое ускорение

Ускорение важнейших задач современности

GPU NVIDIA A100 с тензорными ядрами обеспечивает непревзойденное ускорение для ИИ, анализа данных и высокопроизводительных вычислений (HPC) для решения самых сложных вычислительных задач. В качестве ядра дата-центра NVIDIA ускоритель A100 можно масштабировать до тысячи GPU, а с помощью технологии NVIDIA Multi-instance GPU (MIG) разделить на семь инстансов для ускорения задач любого масштаба. Тензорные ядра третьего поколения ускоряют операции любой точности для выполнения различных задач, позволяя получать результаты и выводить продукты на рынок быстрее.

Самая производительная комплексная платформа для ИИ и HPC в дата-центре

A100 — это часть комплексного стека решений NVIDIA для дата-центров, который содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC. Представляя собой самую производительную комплексную платформу для ИИ и HPC, A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.

Видео о создании Ampere

Deep Learning Training

Тренировка алгоритмов глубокого обучения

Модели ИИ становятся все более сложными, так как предназначены для таких задач, как разговорный ИИ и рекомендательные системы на базе алгоритмов глубокого обучения. Для их тренировки необходима значительная вычислительная мощность и масштабируемость.

Третье поколение Tensor Coresтензорных ядер в NVIDIA A100 с поддержкой Tensor Float (TF32) повышают производительность в 10 раз по сравнению с предыдущими решениями, не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью. При объединении с NVIDIA ® NVLink® третьего поколения, NVIDIA NVSwitch™, PCI Gen4, Mellanox InfiniBand и SDK NVIDIA Magnum IO ускоритель A100 можно масштабировать в тысячи раз. Это означает, что большие модели ИИ например BERT, можно обучить всего за XX минут на кластере из XX ускорителей A100, обеспечивающих непревзойденную производительность и масштабируемость.

Свое лидерство NVIDIA продемонстрировала в MLPerf 0.6, первом отраслевом бенчмарке для обучения алгоритмов ИИ.

Инференс глубокого обучения

A100 обеспечивает новые функции для оптимизации инференса. Решение отличается невероятной универсальностью, ускоряя широкий диапазон операций: от FP32 и FP16 до INT8 и даже INT4. Технология Multi-Instance GPU (MIG) обеспечивает работу нескольких сетей на одном GPU A100 для максимальной утилизации вычислительных ресурсов. А структурная поддержка разреженности повышает производительность до 2 раз помимо других преимуществ A100 в задачах инференса.

Как показывает MLPerf Inference 0.5, первый отраслевой бенчмарк для инференса ИИ, NVIDIA уже предоставляет самые производительные решения на рынке. A100 в 10 раз производительнее этих решений, что укрепляет лидерство компании.

Deep Learning Inference
High-Performance Computing

Высокопроизводительные вычисления

Чтобы совершать новые научные открытия, ученые обращаются к моделированию и с его помощью глубже изучают сложные молекулы для создания лекарств, физические процессы — для поиска потенциальных источников энергии и атмосферные данные — для разработки точных прогнозов и подготовки к экстремальным погодным условиям.

A100 оснащен тензорными ядрами с поддержкой двойной точности, и это важнейшее достижение с момента реализации вычислений с двойной точностью на GPU для HPC. Десятичасовое моделирование с двойной точностью на GPU NVIDIA V100 с тензорными ядрами теперь можно провести за несколько часов на A100. А приложения для HPC могут до 10 раз быстрее выполнять умножение матриц с одинарной точностью, используя тензорные ядра в A100.

Высокопроизводительный анализ данных

Пользователям необходимо анализировать, визуализировать наборы данных и извлекать из них ценную информацию. Но помехой для горизонтально-масштабируемых решений зачастую становится распределенность наборов данных на нескольких серверах.

Для выполнения таких ресурсоемких задач ускоренные серверы на базе A100 обеспечивают необходимую вычислительную мощность наряду с пропускной способностью памяти 1,6 Тб/с и масштабируемостью благодаря коммутаторам NVLink и NVSwitch третьего поколения. В сочетании с Mellanox InfiniBand, SDK Magnum IO, GPU-ускоренным Spark 3.0 и набору ПО NVIDIA RAPIDS для GPU-ускоренного анализа данных платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и энергоэффективность.

High-Performance Data Analytics
Enterprise-Ready Utilization

Утилизация инфраструктуры

A100 с технологией Multi-Instance GPU (MIG) обеспечивает максимальную утилизацию инфраструктуры с ускорением на GPU. Технология MIG позволяет разделить GPU A100 на семь отдельных инстансов и предоставить доступ к GPU большему числу пользователей для запуска приложений и разработки решений. Более того, администраторы дата-центров могут использовать преимущества управления и эффективность виртуализации серверов с гипервизором на инстансах MIG с помощью ПО NVIDIA Virtual Compute Server (vComputeServer). MIG позволяет более гибко распределять ресурсы GPU, чтобы разработчики могли выбрать подходящий размер GPU и достичь оптимальной утилизации.

Спецификации

  A100 для NVLink
Пиковая производительность для FP64 9,7 Терафлопс
Пиковая производительность тензорных ядер для FP64 19,5 Терафлопс
Пиковая производительность для FP32 19,5 Терафлопс
Пиковая производительность тензорных ядер для TF32 156 Терафлопс | 312 Терафлопса*
Пиковая производительность тензорных ядер для BFLOAT16 312 Терафлопса | 624 Терафлопса*
Пиковая производительность тензорных ядер для FP16 312 Терафлопса | 624 Терафлопса*
Пиковая производительность тензорных ядер для INT8 624 трлн операций/с | 1248 трлн операций/с*
Пиковая производительность тензорных ядер для INT4 1248 трлн операций/с | 2496 трлн операций/с*
Объем памяти 40 Гб
Пропускная способность памяти 1555 Гб/с
Внутреннее соединение NVLink 600 Гбит/с
PCIe Gen4 64 Гбит/с
Комбинации Multi-Instance GPU 3 инстанса MIG с объемом памяти 10 Гб
5 инстансов MIG с объемом памяти 8 Гб
7 инстансов MIG с объемом памяти 5 Гб
Форм-фактор 4/8 SXM на NVIDIA HGX A100
Максимальные требования по теплоотводу 400 Вт
 

Инновации в архитектуре NVIDIA Ampere

Join this webinar to learn what's new with the NVIDIA Ampere architecture and its implementation in the NVIDIA A100 GPU.