This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A100 с тензорными ядрами

Масштабируемое ускорение

Ускорение важнейших современных задач

GPU NVIDIA A100 с тензорными ядрами обеспечивает непревзойденное ускорение нагрузок ИИ, анализа данных и HPC для решения самых сложных вычислительных задач. A100 на базе архитектуры NVIDIA Ampere — это ядро платформы NVIDIA для дата-центров. A100 повышает производительность до 20 раз по сравнению с предыдущими решениями. Каждый GPU A100 можно разделить на семь инстансов для быстрой адаптации к постоянно меняющимся запросам. A100 80 ГБ обладает самой быстрой в мире пропускной способностью памяти (более 2 ТБ/с), что позволяет работать с самыми крупными моделями и наборами данных.

Ознакомьтесь с техническим описанием NVIDIA A100 (PDF, 640 КБ)

Ознакомьтесь с кратким описанием продукта NVIDIA A100 80 ГБ PCIe (PDF, 380 КБ)

Ознакомьтесь с кратким описанием продукта NVIDIA A100 40 ГБ PCIe (PDF, 332 КБ)

Корпоративное ПО для ИИ

Платформа NVIDIA EGX^™ предоставляет доступ к оптимизированному ПО, которое обеспечивает ускоренные вычисления по всей инфраструктуре. NVIDIA AI Enterprise — это комплексный облачный набор инструментов для работы с ИИ и анализа данных, оптимизированный, сертифицированный и поддерживаемый NVIDIA для VMware vSphere в сертифицированных NVIDIA системах. Он позволяет развертывать и масштабировать нагрузки ИИ, а также управлять ими в современной гибридной облачной платформе.

Подробнее

Самая производительная комплексная платформа для ИИ и HPC в дата-центре

A100 — это часть комплексного решения NVIDIA для дата-центров, которая содержит программно-аппаратное обеспечение, сетевые технологии, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC^™. Представляя собой самую производительную комплексную платформу для ИИ и HPC, A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.

Видео о создании Ampere

СМОТРЕТЬ ВИДЕО

Тренировка алгоритмов глубокого обучения

До 3 раз улучшенное обучение самых крупных моделей ИИ

Обучение DLRM

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

Модели ИИ становятся все более сложными, так как предназначены для таких задач нового уровня, как, например, разговорный ИИ. Для их обучения необходима значительная вычислительная мощность и масштабируемость.

Тензорные ядра в NVIDIA A100 с поддержкой Tensor Float (TF32) повышают производительность в 20 раз по сравнению с NVIDIA Volta, не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью и FP16. При объединении с NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^®, и SDK NVIDIA Magnum IO^™ ускоритель на базе A100 можно масштабировать в тысячи раз.

Тренировочная нагрузка, такая как алгоритм BERT, может быть обработана менее чем за минуту с помощью 2048 GPU A100, что является мировым рекордом.

A100 80 ГБ располагает 1,3 ТБ объединенной памяти на узел и увеличивает пропускную способность до 3 раз, по сравнению с A100 40 ГБ, для самых больших моделей с массивными таблицами данных, например, для моделей рекомендательных системы на основе глубокого изучения (DLRM).

NVIDIA установила несколько рекордов производительности в отраслевом бенчмарке для обучения модели ИИ MLPerf.

Подробнее о A100 для обучения моделей

Инференс моделей глубокого обучения

A100 представляет революционные функции для оптимизации инференса. Он ускоряет широкий диапазон операций: от FP32 до INT4. Технология Multi-Instance GPU (MIG) обеспечивает работу нескольких сетей на одном A100 для максимальной эффективности использования вычислительных ресурсов. А структурная поддержка разреженности повышает производительность до 2 раз помимо других преимуществ A100 в задачах инференса.

В современных моделях разговорного ИИ, таких как BERT, A100 ускоряет пропускную способность до 249 раз по сравнению с процессором.

В самых сложных моделях, ограниченных размером пакета, таких как RNN-T для автоматического распознавания речи, увеличенный объем памяти A100 80 ГБ удваивает размер каждого MIG и обеспечивает до 1,25 более высокую пропускную способность, чем A100 40 ГБ.

В MLPerf Inference была продемонстрирована ведущая в отрасли производительность NVIDIA. A100 в 20 раз производительнее, что укрепляет лидерство компании.

Подробнее о A100 для инференса

Повышение производительности инференса модели ИИ до 249 раз
по сравнению с процессором

Инференс BERT-LARGE

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size =128 | V100: NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 с разреженностью.

До 1,25 раз более высокая производительность инференса модели ИИ
по сравнению с A100 40 ГБ

Инференс RNN-T: один поток

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

Высокопроизводительные вычисления

Чтобы совершать новые научные открытия, ученые обращаются к моделированию для лучшего понимания окружающего мира.

NVIDIA A100 представляет тензорные ядра с двойной точностью, обеспечивающие самую большую производительность HPC с момента появления GPU. В сочетании с 80 ГБ самой быстрой памяти GPU исследователи могут уменьшить 10-часовой процесс моделирования с двойной точностью до менее четырех часов на A100. Приложения для высокопроизводительных вычислений также могут использовать TF32 в A100 для достижения до 11 раз большей пропускной способности для операций умножения плотных матриц с одинарной точностью.

Для HPC-приложений с большими наборами данных дополнительная память A100 80 ГБ увеличивает пропускную способность в 2 раза благодаря Quantum Espresso, пакету для моделирования материалов. Огромный объем памяти и высокая пропускная способность делают A100 80 ГБ идеальной платформой для рабочих нагрузок нового поколения.

Подробнее о A100 для HPC

Прирост производительности в задачах HPC в 11 раз за 4 года

Ведущие приложения для HPC

Среднее геометрическое значение ускорения приложений по сравнению с P100: бенчмарк: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | узел с двумя процессорами, 4 графическими ускорителями NVIDIA P100, V100 или A100.

Производительность до 1,8 раз выше для приложений HPC

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Высокопроизводительный анализ данных

До 83 раз быстрее, чем процессор, в 2 раза быстрее, чем A100 40 ГБ по результатам бенчмарка анализа больших данных

Бенчмарк анализа больших данных | 30 запросов analytical retail, ETL, машинное обучение, обработка естественного языка на наборе данных 10 TБ | Процессор: Intel Xeon Gold 6252 с тактовой частотой 2,10 ГГц, Hadoop | V100 32 ГБ, RAPIDS/Dask | A100 40 ГБ и A100 80 ГБ, RAPIDS/Dask/BlazingSQL

Специалистам по data science необходимо анализировать, визуализировать большие наборы данных и извлекать из них ценную информацию. Но помехой для горизонтально-масштабируемых решений зачастую становится распределенность наборов данных на нескольких серверах.

Чтобы справиться с рабочими нагрузками, ускоренные серверы с A100 обеспечивают необходимую вычислительную мощность наряду с огромной памятью, пропускной способностью более 2 ТБ/с и масштабируемостью с NVIDIA^® NVLink^® и NVSwitch^™. В сочетании с InfiniBand, NVIDIA Magnum IO^™ и набором библиотек с открытым исходным кодом RAPIDS^™, включая RAPIDS Accelerator для Apache Spark для анализа данных с ускорением на GPU, платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и эффективность.

Во время бенчмарка анализа больших данных A100 80 ГБ передавал информацию с более высокой производительностью (в 83 раза), чем процессор, и в 2 раза более высокой производительностью, чем на A100 40 ГБ. Таким образом, он идеально подходит для рабочих нагрузок со стремительно растущими размерами наборов данных.

Подробнее об анализе данных

Готовность к развертыванию на предприятии

До 7 раз выше производительность в задачах инференса с технологией Multi-Instance GPU (MIG)

Инференс больших моделей BERT

Инференс больших моделей BERT | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 с разреженностью.

A100 с технологией Multi-Instance GPU (MIG) обеспечивает максимальную эффективность использования инфраструктуры с ускорением на GPU. Технология MIG позволяет разделить GPU A100 на семь отдельных инстансов и предоставить доступ к GPU большему числу пользователей. С A100 40 ГБ каждый инстанс MIG может иметь объем до 5 ГБ, а с увеличенным объемом памяти A100 80 ГБ он удваивается до 10 ГБ.

MIG работает с контейнерами Kubernetes и виртуализацей серверов с гипервизором. MIG позволяет разработчикам инфраструктуры предлагать оптимальный размер GPU с гарантированным качеством обслуживания (QoS) для каждой задачи, повышая эффективность использования ресурсов и предоставляя доступ к ресурсам для ускоренных вычислений большему числу пользователей.

Подробнее о MIG

Наивысшая производительность ваших систем

Сертифицированная NVIDIA система включает в себя GPU A100, сетевые карты SmartNIC и DPU NVIDIA Mellanox. Она гарантированно обеспечивает производительность, функциональность, масштабируемость и безопасность, позволяя компаниям легко развертывать комплексные решения для задач ИИ из каталога NVIDIA NGC.

Подробнее

GPU в дата-центре

NVIDIA A100 для HGX

Исключительная производительность для всех нагрузок.

NVIDIA A100 для PCIe

Универсальность для всех нагрузок.

Спецификации

	A100 80 ГБ PCIe	A100 80 ГБ SXM
FP64	9,7 ТЕРАФЛОПС
Тензорное ядро для FP64	19,5 ТЕРАФЛОПС
FP32	19,5 ТЕРАФЛОПС
Tensor Float 32 (TF32)	156 ТЕРАФЛОПС \| 312 ТЕРАФЛОПС*
Тензорное ядро для BFLOAT16	312 ТЕРАФЛОПС \| 624 ТЕРАФЛОПС*
Тензорное ядро для FP16	312 ТЕРАФЛОПС \| 624 ТЕРАФЛОПС*
Тензорное ядро для INT8	624 TOPS \| 1248 TOPS*
Объем видеопамяти	80 ГБ HBM2e	80 ГБ HBM2e
Пропускная способность видеопамяти	1935 ГБ/с	2039 ГБ/с
Максимальные требования по теплоотводу (TDP)	300 Вт	400 Вт***
Multi-Instance GPU	До 7 MIG с 10 ГБ	До 7 MIG с 10 ГБ
Форм-фактор	PCIe Двухслотовая конфигурация с воздушным охлаждением или однослотовая конфигурация с жидкостным охлаждением	SXM
Межсоединение	Мост NVIDIA^® NVLink^® для 2 GPU: 600 ГБ/с** PCIe Gen4: 64 ГБ/с	NVLink: 600 ГБ/с PCIe Gen4: 64 ГБ/с
Сервер	Сервер на базе NVIDIA-Certified Systems™ (сертифицированных NVIDIA систем) и решений партнеров с 1–8 графическими процессорами	Сервер NVIDIA HGX™ A100 на базе сертифицированных NVIDIA систем и решений партнеров с 4, 8 или 16 графическими процессорами NVIDIA DGX™ A100 с 8 графическими процессорами

* С разреженностью
** Графические процессоры SXM4 через серверные платы HGX A100; графические процессоры PCIe через мост NVLink для конфигураций, включающих до 2 GPU
*** Требования по теплоотводу 400 Вт для стандартной конфигурации. Заказная система охлаждения (CTS) SKU для HGX A100-80GB может поддерживать требования по теплоотводу до 500 Вт

Посмотрите последние результаты бенчмарка MLPerf

Посмотреть результаты

Инновации в архитектуре NVIDIA Ampere

Узнайте об инновациях архитектуры NVIDIA Ampere и ее реализации в GPU NVIDIA A100.

Читать статью