NVIDIA HGX A100

На базе GPU NVIDIA A100 с тензорными ядрами, NVLink и NVSwitch

Самая производительная серверная платформа для ИИ и HPC

Огромные наборы данных для машинного обучения, большие модели глубокого обучения и сложное моделирование для высокопроизводительных вычислений (HPC) требуют систем с несколькими GPU и высокоскоростным соединением. NVIDIA HGX A100 объединяет в себе несколько графических ускорителей NVIDIA A100 с тензорными ядрами, соединенных высокоскоростным интефейсом NVIDIA® NVLink®, и позволяет строить самые мощные серверы. Полностью протестированная, простая в развертывании системная плата HGX A100 интегрируется в серверы партнеров для обеспечения надежной производительности.

Непревзойденное ускорение вычислений

Благодаря возможностям тензорных ядер третьего поколения HGX A100 ускоряет задачи ИИ до 10 раз с Tensor Float 32 (TF32), а высокопроизводительные вычисления — в 2,5 раза с FP64. NVIDIA HGX A100 на базе 4GPU демонстрирует производительность почти 80 терафлопс для FP64 в самых требовательных нагрузках HPC. Конфигурация NVIDIA HGX™ A100 с 8 GPU обеспечивает производительность 5 петафлопс для вычислений FP16 в задачах глубокого обучения, в то время как HGX A100 с 16 GPU позволяет достичь невероятных 10 петафлопс, что делает ее самой производительной серверной платформой для ИИ и HPC.

NVIDIA HGX A100 на базе 8 GPU

NVIDIA HGX A100 на базе 8 GPU

NVIDIA HGX A100 на базе 4 GPU

NVIDIA HGX A100 на базе 4 GPU

Производительность в операциях TF32 для задач тренировки моделей ИИ

Тренировка BERT

nvidia-a100-6x-tf32-ai-training-2c50-d

задачах глубокого обучения

Модели глубокого обучения становятся все более большими и сложными. А значит, для моделей ИИ необходимы системы с увеличенным объемом памяти, вычислительной мощностью и высокоскоростным соединением. Благодаря NVIDIA NVSwitch для быстрой всесторонней коммуникации между GPU платформа HGX A100 обеспечивает возможности для самых продвинутых моделей ИИ. NVIDIA HGX A100 с 8 GPU до 6 раз производительнее систем HGX на базе NVIDIA Volta предыдущего поколения в задачах тренировки алгоритмов ИИ и до 7 раз — в задачах инференса сложных моделей BERT.

Производительность в задачах машинного обучения

Для достижения результатов моделям машинного обучения необходимо загружать, трансформировать и обрабатывать чрезвычайно крупные наборы данных. Благодаря 0,5 Тб единой памяти и всесторонней коммуникации GPU с технологией NVSwitch платформа HGX A10 может загружать большие наборы данных и производить над ними вычисления, мгновенно получая практические результаты. 

Производительность в задачах машинного обучения

Производительность в задачах HPC повысилась в 9 раз за 4 года

Производительность ведущих приложений для HPC

nvidia-a100-9x-hpc-2c50-d

Производительность в задачах HPC

Работа с приложениями для HPC требует высокой вычислительной мощности, позволяющей выполнять большое число операций в секунду. Повышение вычислительной плотности каждого узла значительно сокращает число требуемых серверов, что приводит к серьезной экономии расходов, электроэнергии и пространства в дата-центре.  Перемножение матриц большой размерности для моделирования с HPC требует постоянной передачи данных между множеством соседних процессоров, что делает конфигурацию GPU, объединенных интерфейсом NVLink, идеальным решением.  NVIDIA HGX A100 с 8 GPU до 6 раз производительнее систем HGX на базе NVIDIA Volta™ предыдущего поколения в задачах тренировки алгоритмов ИИ и до 7 раз — в задачах инференса.

Самая производительная комплексная платформа для ИИ и HPC в дата-центре

Комплексный стек решений NVIDIA для Комплексный стек решений NVIDIA для дата-центров содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC. Представляя собой самую производительную комплексную платформу для ИИ и HPC, HGX A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.

Спецификации HGX A100

HGX A100 поставляется в виде отдельных плат с 4 или 8 GPU A100. В конфигурации с 4 GPU ускорители объединены интерфейсом NVLink, а в конфигурации с 8 GPU — коммутатором NVSwitch. Две платы NVIDIA HGX™ A100 с 8 GPU можно объединить с помощью технологии внутреннего соединения NVSwitch, чтобы создать единый узел с 16 GPU.

4-GPU 8-GPU 16-GPU
Графические процессоры 4x NVIDIA A100 8x NVIDIA A100 16x NVIDIA A100
Вычисления для ИИ/HPC FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
Память 160 Гб 320 Гб 640 Гб
NVIDIA NVLink Третьего поколения Третьего поколения Третьего поколения
NVIDIA NVSwitch нет Второго поколения Второго поколения
NVIDIA Пропускная способность между GPU нет 600 Гбит/с 600 Гбит/с
Общая пропускная способность 2,4 Тбит/с 4,8 Тбит/с 9,6 Тбит/с

Референсные архитектуры HGX-1 и HGX-2

На базе GPU NVIDIA и NVLINK

NVIDIA HGX-1 и HGX-2 — это референсные архитектуры, которые стали стандартом проектирования дата-центров для ускорения ИИ и HPC. Референсные архитектуры HGX основаны на NVIDIA V100 в форм-факторе SXM2, объединенных технологиями NVLink и NVSwitch, и имеют модульную конструкцию, которая оптимально подходит для гипермасштабируемых и гибридных дата-центров. Обеспечивая производительность 2 петафлопса, архитектуры предоставляют простой путь к ускорению ИИ и HPC.

На базе GPU NVIDIA и NVLINK

Спецификации

HGX-1
с 8 GPU  
HGX-2
с 16 GPU  
Графические процессоры 8x NVIDIA V100 16x NVIDIA V100
Производительность в вычислениях ИИ 1 петафлопс (в операциях FP16) 2 петафлопса (в операциях FP16)
Память 256 Гб 512 Гб
NVLink Второго поколения Второго поколения
NVSwitch Нет Да
NVSwitch GPU-to-GPU Bandwidth Нет 300 Гбит/с
Общая пропускная способность 2,4 Тбит/с 4,8 Тбит/с

Инновации в архитектуре NVIDIA Ampere

Прочитайте статью и узнайте об инновациях архитектуры NVIDIA Ampere и ее реализации в GPU NVIDIA A100.