GPU NVIDIA A100 с тензорными ядрами

Масштабируемое ускорение

Ускорение важнейших задач современности

GPU NVIDIA A100 с тензорными ядрами обеспечивает непревзойденное ускорение для ИИ, анализа данных и HPC для решения самых сложных вычислительных задач. A100 на базе архитектуры NVIDIA Ampere — это ядро дата-центра NVIDIA. A100 повышает производительность до 20 раз по сравнению с предыдущими решениями. Каждый GPU A100 можно разделить на семь инстансов для быстрой адаптации к постоянно меняющимся запросам. A100 доступен в двух конфигурациях: на 40 ГБ и 80 ГБ. A100 80GB обладает самой быстрой в мире пропускной способностью памяти более 2 ТБ/с, что позволяет работать с крупными моделями и наборами данных.

Самая производительная комплексная платформа для ИИ и HPC в дата-центре

A100 — это часть комплексного стека решений NVIDIA для дата-центров, который содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC. Представляя собой самую производительную комплексную платформу для ИИ и HPC, A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.

 

Видео о создании Ampere

Тренировка алгоритмов глубокого обучения

До 3 раз улучшенное обучение ИИ на самых крупных моделях

Обучение DLRM

Up to 3X Higher AI Training on Largest Models

Модели ИИ становятся все более сложными, так как предназначены для таких задач, как, например, разговорный ИИ. Для их тренировки необходима значительная вычислительная мощность и масштабируемость.

Тензорные ядра в NVIDIA A100 с поддержкой Tensor Float (TF32) повышают производительность в 20 раз по сравнению с NVIDIA Volta, не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью и FP16. При объединении с NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® и NVIDIA Magnum IO SDK NVIDIA Magnum IO™ ускоритель A100 можно масштабировать в тысячи раз.

Алгоритм BERT может быть обработан менее чем за минуту с помощью 2048 GPU A100, что является мировым рекордом.

A100 80GB располагает 1,3 ТБ памяти на узел и увеличивает пропускную способность до 3 раз, по сравнению с A100 40GB, для самых больших моделей с массивными таблицами данных, например, для моделей глубокого изучения (DLRM).

NVIDIA установила несколько рекордов производительности в отраслевом бенчмарке для обучения алгоритмов ИИ MLPerf.

Инференс глубокого обучения

A100 представляет революционные функции для оптимизации инференса. Он ускоряет широкий диапазон операций: от FP32 до INT4. Технология Multi-Instance GPU MIG) обеспечивает работу нескольких сетей на одном A100 для максимальной утилизации вычислительных ресурсов. А структурная поддержка разреженности повышает производительность до 2 раз помимо других преимуществ A100 в задачах инференса.

В современных моделях разговорного ИИ, таких как BERT, A100 ускоряет пропускную способность до 249 раз по сравнению с процессором.

В самых сложных моделях, ограниченных размером пакета, таких как RNN-T для автоматического распознавания речи, увеличенный объем памяти A100 80GB удваивает размер каждого MIG и обеспечивает до 1,25 более высокую пропускную способность, чем A100 40GB.

В MLPerf Inference была продемонстрирована ведущая в отрасли производительность NVIDIA. A100 в 20 раз производительнее, что укрепляет лидерство компании.

Повышение производительности инференса ИИ до 249 раз по сравнению с процессором

Инференс BERT

Up to 249X Higher AI Inference Performance  Over CPUs

До 1,25 раз более высокая производительность инференса ИИ по сравнению с A100 40GB

Инференс RNN-T: один поток

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

Высокопроизводительные вычисления

Чтобы совершать новые научные открытия, ученые обращаются к моделированию для лучшего понимания окружающего мира.

NVIDIA A100 представляет тензорные ядра с двойной точностью, обеспечивающие самую большую производительность HPC с момента появления GPU. В сочетании с 80 ГБ самой быстрой памяти GPU исследователи могут уменьшить 10-часовой процесс моделирования с двойной точностью до менее четырех часов на A100. Приложения для высокопроизводительных вычислений также могут использовать TF32 в A100 для достижения до 11 раз большей пропускной способности для точных операций.

Для HPC-приложений с большими наборами данных дополнительная память A100 80GB увеличивает пропускную способность в 2 раза благодаря Quantum Espresso, пакету для моделирования материалов. Огромный объем памяти и высокая пропускная способность делают A100 80GB идеальной платформой для революционных рабочих нагрузок.

Повышение производительности HPC в 11 раз за четыре года

Ведущее приложение для HPC​

11X More HPC Performance  in Four Years

Повышение производительности до 1,8 х для HPC приложений

Quantum Espresso​

Up to 1.8X Higher Performance  for HPC Applications

Высокопроизводительный анализ данных

До 83 раз быстрее, чем процессор, в 2 раза быстрее, чем A100 40GB по результатам бенчмарка анализа больших данных

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Специалистам по data science необходимо анализировать, визуализировать наборы данных и извлекать из них ценную информацию. Но помехой для горизонтально-масштабируемых решений зачастую становится распределенность наборов данных на нескольких серверах. 

Чтобы справиться с рабочими нагрузками, ускоренные серверы с A100 обеспечивают необходимую вычислительную мощь наряду с огромной памятью, пропускной способностью более 2 ТБ/с и масштабируемостью с NVIDIA® NVLink® и NVSwitch. В сочетании с InfiniBand, NVIDIA Magnum IO и набором библиотек с открытым исходным кодом RAPIDS, включая RAPIDS Accelerator для Apache Spark для анализа данных с ускорением на GPU, платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и эффективность.

Во время бенчмарка анализа больших данных A100 80GB передавал информацию с более высокой производительностью до 83 раз, чем процессор, и до 2 раз более высокой производительностью, чем на A100 40GB, таким образом, он идеально подходит для рабочих нагрузок со стремительно растущими размерами наборов данных. 

Утилизация инфраструктуры

До 7 раз выше производительность в задачах инференса ИИ с технологией MIG

Инференс BERT

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 с технологией Multi-Instance GPU (MIG) обеспечивает максимальную утилизацию инфраструктуры с ускорением на GPU. Технология MIG позволяет разделить GPU A100 на семь отдельных инстансов и предоставить доступ к GPU большему числу пользователей. С A100 40GB каждый инстанс MIG может иметь объем до 5 ГБ, а с увеличенным объемом памяти A100 80GB он удваивается до 10 ГБ.

MIG работает с контейнерами Kubernetes и виртуализацей серверов с гипервизором. MIG позволяет разработчикам инфраструктуры предлагать оптимальный размер GPU с гарантированным качеством обслуживания (QoS) для каждой задачи, повышая утилизацию и предоставляя доступ к ресурсам для ускоренных вычислений большему числу пользователей.

Максимум возможностей систем

Сертифицированная система NVIDIA включает в себя ускоритель A100, сетевые карты SmartNIC и DPU NVIDIA Mellanox. Она гарантированно обеспечивает производительность, функциональность, масштабируемость и безопасность, позволяя компаниям легко развертывать комплексные решения для задач ИИ из каталога NVIDIA NGC.

GPU в дата-центре

NVIDIA A100 для HGX

NVIDIA A100 для HGX

Исключительная производительность для всех нагрузок.

NVIDIA A100 для PCIe

NVIDIA A100 для PCIe

Универсальность для всех нагрузок.

Спецификации

  NVIDIA A100 для NVLink NVIDIA A100 для PCIe
Пиковая производительность для FP64 9,7 Терафлопс 9,7 Терафлопс
Пиковая производительность тензорных ядер для FP64 19,5 Терафлопс 19,5 Терафлопс
Пиковая производительность для FP32 19,5 Терафлопс 19,5 Терафлопс
Tensor Float 32 (TF32) 156 Терафлопс | 312 Терафлопса 156 Терафлопс | 312 Терафлопса
Пиковая производительность тензорных ядер для BFLOAT16 312 Терафлопса | 624 Терафлопса 312 Терафлопса | 624 Терафлопса
Пиковая производительность тензорных ядер для FP16 312 Терафлопса | 624 Терафлопса 312 Терафлопса | 624 Терафлопса
Пиковая производительность тензорных ядер для INT8 624 TOPS | 1248 TOPS* 624 TOPS | 1248 TOPS*
Пиковая производительность тензорных ядер для INT4 1248 TOPS | 2496 TOPS* 1248 TOPS | 2496 TOPS*
GPU Memory 40 ГБ 80 ГБ 40 ГБ
Пропускная способность памяти 1555 Гбит/с 2039 Гбит/с 1555 Гбит/с
Внутреннее соединение NVIDIA NVLink 600 Гбит/с**
PCIe Gen4 64 Гбит/с
NVIDIA NVLink 600 Гбит/с**
PCIe Gen4 64 Гбит/с
Multi-Instance GPU Различные размеры инстансов до 7 MIG с 10 ГБ Различные размеры инстансов до 7 MIG с 5 ГБ
Форм-фактор 4/8 SXM на NVIDIA HGX A100 PCIe
Максимальные требования по теплоотводу 400 Вт 400 Вт 250 Вт
 

Инновации в архитектуре NVIDIA Ampere

Узнайте об инновациях архитектуры NVIDIA Ampere и ее реализации в GPU NVIDIA A100.