GPU NVIDIA H100 с тензорными ядрами

Беспрецедентная производительность, масштабируемость и кибербезопасность для каждого дата-центра.

Прорыв в ускоренных вычислениях

Беспрецедентная производительность, масштабируемость и безопасность для любых задач с GPU NVIDIA H100 с тензорными ядрами. С помощью NVIDIA® NVSwitch и NVLink® можно подключить до 256 H100 для ускорения экзафлопсных рабочих нагрузок, а также специальный Transformer Engine для языковых моделей с триллионами параметров. Совокупность технологических инноваций H100 позволяет ускорить большие языковые модели в 30 раз по сравнению с предыдущим поколением, обеспечивая лучший в отрасли разговорный ИИ.

Безопасное ускорение задач – от корпоративных до экзафлопсных

До 9 раз улучшенное обучение ИИ на самых крупных моделях

Модель коллектива экспертов (395 миллиардов параметров)

Трансформационное обучение моделей ИИ

Трансформационное обучение моделей ИИ

GPU NVIDIA H100 оснащены тензорными ядрами четвертого поколения и Transformer Engine с точностью FP8, ускоряя обучение до 9 раз по сравнению с предыдущим поколением для моделей коллектива экспертов (MoE). Комбинация NVlink четвертого поколения, обеспечивающая соединение GPU-to-GPU со скоростью 900 гигабайт в секунду (ГБ/с); NVSwitch, ускоряющий коллективную связь каждого GPU между узлами; PCIe 5-го поколения; и ПО NVIDIA Magnum IO обеспечивает эффективную масштабируемость как для небольших предприятий, так и для крупных унифицированных кластеров GPU.

Развертывание GPU H100 в масштабах дата-центра обеспечивает беспрецедентную производительность и делает следующее поколение экзафлопсных высокопроизводительных вычислений (HPC) и ИИ с триллионными параметрами доступным для всех исследователей.

Инференс глубокого обучения в реальном времени

ИИ решает широкий спектр бизнес-задач, используя столь же широкий набор нейросетей. Хороший ускоритель инференса должен не только обеспечивать высочайшую производительность, но и универсальность для ускорения этих сетей.

H100 укрепляет лидерство NVIDIA на рынке инференса благодаря улучшениям, которые ускоряют инференс до 30 раз и обеспечивают минимальную задержку. Тензорные ядра четвертого поколения ускоряют все типы точностей, включая FP64, TF32, FP32, FP16 и INT8, а Transformer Engine использует FP8 и FP16 вместе, чтобы сократить использование памяти и повысить производительность, сохраняя при этом точность для больших языковых моделей.

До 30 раз выше скорость инференса на самых больших моделях

Megatron Chatbot Inference (530 Billion Parameters)

Инференс глубокого обучения в реальном времени

Производительность до 7 раз выше для приложений HPC

AI-fused HPC Applications

Экзафлопсные высокопроизводительные вычисления

Платформа NVIDIA для дата-центров обеспечивает прирост производительности сверх закона Мура. А новые прорывные возможности ИИ в H100 еще больше усиливают мощь HPC+AI, ускоряя работу ученых и исследователей по решению важнейших мировых задач.

H100 утроил число операций с плавающей точкой в секунду (FLOPS) для тензорных ядер двойной точности, обеспечивая 60 терафлопс вычислений FP64 для HPC-задач. Приложения для HPC вычислений с ИИ также могут использовать точность TF32 процессора H100, чтобы обеспечить один петафлопс в операциях умножения матриц с одинарной точностью без изменений кода.

H100 также содержит новые инструкции DPX, которые в 7 раз повышают производительность по сравнению с A100 и в 40 раз по сравнению с CPU в алгоритмах динамического программирования, таких как алгоритм Смита-Уотермана для выравнивания последовательностей ДНК и выравнивания белков для прогнозирования структуры белков.

Анализ данных

Аналитика данных часто занимает большую часть времени при разработке приложений ИИ. Поскольку большие наборы данных разбросаны по нескольким серверам, масштабируемые решения с серверами на базе CPU не справляются из-за отсутствия необходимой производительности.

Ускоренные серверы с H100 обеспечивают вычислительную мощность, а также пропускную способность памяти 3 ТБ/с на GPU и масштабируемость с помощью NVLink и NVSwitch, что позволяет выполнять аналитику данных с высокой производительностью и масштабированием для задач с большими наборами данных. В сочетании с NVIDIA Quantum-2 InfiniBand, ПО Magnum IO, GPU-ускоренным Spark 3.0 и NVIDIA RAPIDS платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и энергоэффективность.

Серверы с ускорением на H100
NVIDIA Multi-Instance GPU

Утилизация инфраструктуры

ИТ-менеджеры стремятся максимизировать использование (как пиковое, так и среднее) вычислительных ресурсов в дата-центре. Они часто используют динамическую реконфигурацию вычислительных ресурсов, чтобы правильно распределить ресурсы для используемых рабочих нагрузок.

MIG второго поколения в H100 позволяет максимально использовать каждый GPU, безопасно разделив его на семь отдельных инстансов. Благодаря Confidential Computing H100 обеспечивает безопасное сквозное многопользовательское использование, что идеально подходит для сред поставщиков облачных услуг (CSP).

H100 с MIG позволяет руководителям инфраструктур стандартизировать свою инфраструктуру с ускорением на GPU и обеспечить гибкое распределение ресурсов GPU с большей степенью детализации, чтобы предоставить разработчикам необходимый объем ускоренных вычислений и оптимальное использование всех ресурсов GPU.

NVIDIA Confidential Computing и безопасность

Современные решения для конфиденциальных вычислений основаны на CPU, которые слишком ограничены для ресурсоемких задач, таких как ИИ и HPC. NVIDIA Confidential Computing – это встроенная функция безопасности архитектуры NVIDIA Hopper, которая делает NVIDIA H100 первым в мире ускорителем с возможностями конфиденциальных вычислений. Пользователи могут защищать конфиденциальность и целостность своих данных и используемых приложений с доступом к беспрецедентному ускорению GPU H100. Это создает аппаратную доверенную среду выполнения (TEE), которая защищает и изолирует всю рабочую нагрузку, выполняемую на одном GPU H100, нескольких GPU H100 в узле или отдельных инстансах MIG. Приложения с GPU-ускорением могут работать без изменений в TEE, и их не нужно разбивать на разделы. Пользователи могут сочетать мощь ПО NVIDIA для ИИ и HPC с безопасностью аппаратного корня доверия, поддерживаемого в NVIDIA Confidential Computing.

NVIDIA Confidential Computing Solutions
NVIDIA H100CX Converged Accelerator

Конвергентный ускоритель NVIDIA H100 CNX

NVIDIA H100 CNX объединяет мощь NVIDIA H100 и современные сетевые возможности сетевой карты NVIDIA ConnectX®-7 в одной уникальной платформе. Эта конвергенция обеспечивает беспрецедентную производительность для интенсивных рабочих нагрузок с вводом/выводом (IO) на базе GPU, таких как распределенное обучение ИИ в корпоративном дата-центре и обработка данных 5G на периферии.

Grace Hopper

GPU с тензорными ядрами Hopper H100 ляжет в основу архитектуры NVIDIA Grace Hopper CPU+GPU, специально созданной для ускоренных вычислений терабайтного масштаба и обеспечивающей 10-кратный рост производительности при работе с крупными моделями ИИ и HPC. NVIDIA Grace использует гибкость Arm® для создания архитектуры процессора и сервера с нуля для ускоренных вычислений. H100 подключен к Grace ультраскоростным межчиповым интерфейсом NVIDIA, который обеспечивает пропускную способность 900 ГБ/с, что в 7 раз быстрее, чем PCIe Gen5. Этот инновационный дизайн обеспечит увеличение пропускной способности до 30 раз по сравнению с современными серверами и до 10 раз более высокую производительность для приложений, обрабатывающих терабайты данных.

NVIDIA Confidential Computing Solutions

Спецификации продукта

Форм-фактор H100 SXM H100 PCIe
FP64 30 Терафлопс 24 Терафлопс
Тензорные ядра для FP64 60 Терафлопс 48 Терафлопс
FP32 60 Терафлопс 48 Терафлопс
Тензорные ядра для TF32 1000 Терафлопс* | 500 Терафлопс 800 Терафлопс* | 400 Терафлопс
Тензорные ядра для BFLOAT16 2000 Терафлопс* | 1000 Терафлопс 1600 Терафлопс* | 800 Терафлопс
Тензорные ядра для FP16 2000 Терафлопс* | 1000 Терафлопс 1600 Терафлопс* | 800 Терафлопс
Тензорные ядра для FP8 4000 Терафлопс* | 2000 Терафлопс 3200 Терафлопс* | 1600 Терафлопс
Тензорные ядра для INT8 4000 TOPS* | 2000 TOPS 3200 TOPS* | 1600 TOPS
Объем видеопамяти 80 ГБ 80 ГБ
Пропускная способность памяти 3 ТБ/с 2 ТБ/с
Декодеры 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
Максимальный теплоотвод (TDP) 700 Вт 350 Вт
Комбинации Multi-Instance GPU До 7 MIG с 10 ГБ каждый
Форм-фактор SXM PCIe
Межсоединение NVLink: 900 ГБ/с PCIe Gen5: 128 ГБ/с NVLINK: 600 ГБ/с PCIe Gen5: 128 ГБ/с
Сервер Сервер NVIDIA HGX H100 на базе NVIDIA-Certified Systems и решений партнеров с 4 или 8 графическими процессорами NVIDIA DGX H100 с 8 графическими процессорами Сервер на базе NVIDIA-Certified Systems и решений партнеров с 1-8 графическими процессорами

Подробный обзор архитектуры NVIDIA Hopper