This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

Суперкомпьютер NVIDIA HGX

Самая производительная комплексная платформа для задач ИИ.

Специально разработана для конвергенции систем моделирования, анализа данных и ИИ

Огромные наборы данных, большие модели и сложное моделирование требуют нескольких графических процессоров с быстрым межсоединением и ускоренным программным стеком. Суперкомпьютерная платформа NVIDIA HGX^™ для задач ИИ обеспечивает все возможности GPU NVIDIA, NVIDIA^® NVLink^®, сетей NVIDIA InfiniBand, а также полностью оптимизированного программного стека NVIDIA для ИИ и HPC из каталога NVIDIA NGC^™ для максимальной производительности приложений. Благодаря комплексной производительности и гибкости NVIDIA HGX позволяет исследователям и ученым объединять моделирование, анализ данных и ИИ для успеха научных исследований.

Платформа для ускорения вычислений

NVIDIA HGX объединяет в себе GPU NVIDIA A100 с тензорными ядрами и высокоскоростное межсоединение, что позволяет строить самые производительные серверы в мире. Благодаря 16 GPU A100, HGX обладает до 1,3 ТБ памяти GPU и более 2 ТБ/с пропускной способности, обеспечивая беспрецедентное ускорение.

Благодаря Tensor Float 32 (TF32) и ускорению высокопроизводительных вычислений до 2,5 раз с FP64 HGX увеличивает производительность ИИ до 20 раз по сравнению с предыдущими поколениями. Конфигурация HGX позволяет достичь невероятных 10 петафлопс, что делает ее самой мощной серверной платформой для ИИ и HPC.

Полностью протестированная, простая в развертывании системная плата HGX интегрируется в серверы партнеров для обеспечения надежной производительности. Платформа HGX поставляется в виде отдельных плат с 4 или 8 GPU и ускорителями SXM. Она также доступна в конфигурации GPU PCIe для модульного развертывания и высочайшей вычислительной производительности основных серверов.

Спецификация NVIDIA HGX A100 (pdf 418 кб)

NVIDIA HGX A100 на базе 8 GPU

NVIDIA HGX A100 на базе 4 GPU

Задачах глубокого обучения

До 3 раз улучшенное обучение ИИ на самых крупных моделях

Обучение DLRM

DLRM на фреймвоке HugeCTR, точность = FP16 | NVIDIA A100 80GB размер пакета = 48 | NVIDIA A100 40GB размер пакета = 32 | NVIDIA V100 32GB размер пакета = 32.

Модели глубокого обучения становятся больше и сложнее и требуют систему с большим объемом памяти, вычислительной мощностью и быстрыми соединениями для масштабируемости. Благодаря NVIDIA^® NVSwitch для быстрой всесторонней коммуникации между GPU платформа HGX A100 обеспечивает возможности для самых продвинутых моделей ИИ. С GPU A100 80GB память GPU удваивается, обеспечивая до 1,3 ТБ памяти в одном HGX A100. Нагрузки на самых больших моделях, таких как модели глубокого обучения (DLRM) с массивными таблицами данных, ускоряются в 3 раза по сравнению с HGX на GPU A100 40GB.

Производительность в задачах машинного обучения

В 2 раза быстрее, чем A100 40 Гб, по результатам бенчмарка анализа больших данных

2X Faster than A100 40GB on Big Data Analytics Benchmark

Бенчмарк анализа больших данных | 30 запросов анализа данных в ритейле, ETL, машинное обучение, обработка естественного языка на наборе данных 10 TБ | DGX-1 V100 32GB, RAPIDS/Dask | A100 40GB и A100 80GB, RAPIDS/Dask/BlazingSQL

Для сбора необходимой информации моделям машинного обучения необходимо загружать, трансформировать и обрабатывать чрезвычайно крупные наборы данных. Благодаря до 1,3 TБ единой памяти и межсоединению NVSwitch платформа HGX на базе GPU A100 80GB может загружать большие наборы данных и производить над ними вычисления, мгновенно получая практические результаты.

Во время бенчмарка анализа больших данных A100 80GB передавал информацию до 2 раз быстрее, чем A100 40GB. Графический процессор идеально подходит для рабочих нагрузок со стремительно растущими размерами наборов данных.

Производительность в задачах HPC

HPC-приложения должны выполнять огромные объемы вычислений в секунду. Повышение вычислительной плотности каждого узла значительно сокращает число требуемых серверов, что приводит к серьезной экономии расходов, электроэнергии и пространства в дата-центре. Перемножение матриц большой размерности для моделирования требует постоянной передачи данных между множеством соседних процессоров, что делает конфигурацию GPU, объединенных интерфейсом NVIDIA NVLink, идеальным решением. Приложения для высокопроизводительных вычислений также могут использовать TF32 в A100 для достижения до 11 раз большей пропускной способности за четыре года для точных операций.

HGX A100 на базе GPU A100 80GB обеспечивает увеличение пропускной способности в 2 раза по сравнению с A100 40GB на Quantum Espresso - симуляторе материалов, ускоряющим передачу данных.

В 11 раз большая производительности в HPC за четыре года

Топ приложение HPC

Среднее геометрическое значение ускорения приложений по сравнению с P100: бенчмарк: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | узел с двумя процессорами, 4 графическими ускорителями NVIDIA P100, V100 или A100.

Повышение производительности до 1,8Х для HPC приложений

Quantum Espresso

Quantum Espresso измерен с помощью набора данных CNT10POR8, точность = FP64.

Спецификации NVIDIA HGX

NVIDIA HGX поставляется в виде отдельных плат с 4 или 8 графическими процессорами H100 и 80 ГБ памяти GPU или с графическими процессорами A100 с объемом памяти 40 или 80 ГБ каждый. В конфигурации с 4 графическими процессорами они соединяются с интерфейсом NVIDIA NVLink, а в конфигурации с 8 графическими процессорами — с коммутатором NVIDIA NVSwitch. До 32 систем HGX H100 с 8 графическими процессорами можно объединить в кластеры размером до 256 графических процессоров с помощью коммутационной системы NVIDIA NVLink. Две платы NVIDIA HGX A100 с 8 графическими процессорами можно объединить с помощью технологии межсоединения NVSwitch, чтобы создать единый узел с 16 графическими процессорами.

Платформа HGX также доступна в форм-факторе PCIe для удобного модульного развертывания и высочайшей вычислительной производительности популярных серверов.

Такое программно-аппаратное решение создает основу для мощной суперкомпьютерной платформы для задач ИИ.

	HGX H100
	H100 PCIe	4 GPU	8 GPU	256 GPU
Графические процессоры	1 NVIDIA H100 PCIe	HGX H100 с 4 GPU	HGX H100 с 8 GPU	32 узла по 8 NVIDIA H100 SXM, подключенные через коммутационную систему NVLink
Форм-фактор	PCIe	4 ускорителя NVIDIA H100 SXM	8 ускорителей NVIDIA H100 SXM	16 ускорителей NVIDIA H100 SXM
HPC и вычисления для ИИ (FP64/TF32/FP16/INT8)	48 терафлопс/800 терафлопс/1,6 петафлопс/3,2 петафлопс/3,2 POPS	240 терафлопс/4 петафлопс/8 петафлопс/16 петафлопс/16 POPS	480 терафлопс/8 петафлопс/16 петафлопс/32 петафлопс/32 POPS	15 петафлопс/256 петафлопс/512 петафлопс/1 EF/1 EOPS
Память	80 ГБ на каждом графическом процессоре	До 320 ГБ	До 640 ГБ	До 20 ТБ
NVLink	Четвертое поколение	Четвертое поколение	Четвертое поколение	Четвертое поколение
NVSwitch	-	-	Третье поколение	Третье поколение
Коммутатор NVLink	-	-	-	Первое поколение
Пропускная способность NVSwitсh между графическими процессорами	-	-	900 ГБ/с	900 ГБ/с
Общая пропускная способность	900 ГБ/с	3,6 ТБ/с	7,2 ТБ/с	57,6 ТБ/с

	HGX A100
	A100 PCIe	4 GPU	8 GPU	16 GPU
GPU	NVIDIA A100 PCIe	HGX A100 с 4 GPU	HGX A100 с 8 GPU	2 платформы HGX A100 с 8 GPU
Форм-фактор	PCIe	4 ускорителя NVIDIA A100 SXM	8 ускорителей NVIDIA A100 SXM	16 ускорителей NVIDIA A100 SXM
HPC и вычисления для ИИ (FP64/TF32/FP16/INT8)	19,5 терафлопс/312 терафлопс/624 терафлопс/1,2 POPS	78 терафлопс/1,25 петафлопса/2,5 петафлопса/5 POPS	156 терафлопс/2,5 петафлопса/5 петафлопс/10 POPS	312 терафлопс/5 петафлопс/10 петафлопс/20 POPS
Память	80 ГБ на каждом графическом процессоре	До 320 ГБ	До 640 ГБ	До 1280 ГБ
NVLink	Третье поколение	Третье поколение	Третье поколение	Третье поколение
NVSwitch	-	-	Второе поколение	Второе поколение
Пропускная способность NVSwitch между графическими процессорами	-	-	600 ГБ/с	600 ГБ/с
Общая пропускная способность	600 ГБ/с	2,4 ТБ/с	4,8 ТБ/с	9,6 ТБ/с

Сетевые решения NVIDIA для ускорения HGX

Вы можете использовать сетевые решения NVIDIA на HGX для ускорения и разгрузки передачи данных, не допуская простоев вычислительных ресурсов. Интеллектуальные адаптеры и коммутаторы снижают задержку, повышают эффективность, безопасность и упрощают автоматизацию дата-центра для ускорения работы приложений.

Дата-центр — это новая платформа вычислений, а высокопроизводительные вычислительные сети играют ведущую роль в ускорении работы приложений по всей инфраструктуре. NVIDIA InfiniBand предлагает широкую линейку решений для программно-определяемых сетей, ускорения In-Network Computing, технологии удаленного прямого доступа к памяти (RDMA) и высокой скорости передачи данных.

Референсные архитектуры HGX-1 и HGX-2

На базе GPU NVIDIA и NVLink

NVIDIA HGX-1 и HGX-2 — это референсные архитектуры, которые стали стандартом проектирования дата-центров для ускорения ИИ и HPC. Референсные архитектуры HGX основаны на NVIDIA V100 в форм-факторе SXM2, объединенных технологиями NVLink и NVSwitch, и имеют модульную конструкцию, которая оптимально подходит для гипермасштабируемых и гибридных дата-центров. Обеспечивая производительность 2 петафлопса, архитектуры предоставляют простой путь к ускорению ИИ и HPC.

Спецификации

	HGX-1 с 8 GPU	HGX-2 с 16 GPU
Графические процессоры	8x NVIDIA V100	16x NVIDIA V100
Производительность в вычислениях ИИ	1 петафлопс (в операциях FP16)	2 петафлопса (в операциях FP16)
Память	256 Гб	512 Гб
NVLink	Второго поколения	Второго поколения
NVSwitch	Нет	Да
NVSwitch GPU-to-GPU Bandwidth	Нет	300 Гбит/с
Общая пропускная способность	2,4 Тбит/с	4,8 Тбит/с

Узнайте больше о графическом процессоре NVIDIA A100

Подробнее