Масштабируемое ускорение
GPU NVIDIA A100 с тензорными ядрами обеспечивает непревзойденное ускорение для ИИ, анализа данных и HPC для решения самых сложных вычислительных задач. A100 на базе архитектуры NVIDIA Ampere — это ядро дата-центра NVIDIA. A100 повышает производительность до 20 раз по сравнению с предыдущими решениями. Каждый GPU A100 можно разделить на семь инстансов для быстрой адаптации к постоянно меняющимся запросам. A100 доступен в двух конфигурациях: на 40 ГБ и 80 ГБ. A100 80GB обладает самой быстрой в мире пропускной способностью памяти более 2 ТБ/с, что позволяет работать с крупными моделями и наборами данных.
A100 — это часть комплексного стека решений NVIDIA для дата-центров, который содержит программно-аппаратное обеспечение, сети, библиотеки, а также оптимизированные модели и приложения для ИИ из NGC™. Представляя собой самую производительную комплексную платформу для ИИ и HPC, A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.
Обучение DLRM
DLRM на фреймвоке HugeCTR, точность = FP16 | NVIDIA A100 80GB размер пакета = 48 | NVIDIA A100 40GB размер пакета = 32 | NVIDIA V100 32GB размер пакета = 32
Модели ИИ становятся все более сложными, так как предназначены для таких задач, как, например, разговорный ИИ. Для их тренировки необходима значительная вычислительная мощность и масштабируемость.
Тензорные ядра в NVIDIA A100 с поддержкой Tensor Float (TF32) повышают производительность в 20 раз по сравнению с NVIDIA Volta, не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью и FP16. При объединении с NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® и NVIDIA Magnum IO™ SDK NVIDIA Magnum IO™ ускоритель A100 можно масштабировать в тысячи раз.
Алгоритм BERT может быть обработан менее чем за минуту с помощью 2048 GPU A100, что является мировым рекордом.
A100 80GB располагает 1,3 ТБ памяти на узел и увеличивает пропускную способность до 3 раз, по сравнению с A100 40GB, для самых больших моделей с массивными таблицами данных, например, для моделей глубокого изучения (DLRM).
NVIDIA установила несколько рекордов производительности в отраслевом бенчмарке для обучения алгоритмов ИИ MLPerf.
A100 представляет революционные функции для оптимизации инференса. Он ускоряет широкий диапазон операций: от FP32 до INT4. Технология Multi-Instance GPU MIG) обеспечивает работу нескольких сетей на одном A100 для максимальной утилизации вычислительных ресурсов. А структурная поддержка разреженности повышает производительность до 2 раз помимо других преимуществ A100 в задачах инференса.
В современных моделях разговорного ИИ, таких как BERT, A100 ускоряет пропускную способность до 249 раз по сравнению с процессором.
В самых сложных моделях, ограниченных размером пакета, таких как RNN-T для автоматического распознавания речи, увеличенный объем памяти A100 80GB удваивает размер каждого MIG и обеспечивает до 1,25 более высокую пропускную способность, чем A100 40GB.
В MLPerf Inference была продемонстрирована ведущая в отрасли производительность NVIDIA. A100 в 20 раз производительнее, что укрепляет лидерство компании.
Инференс BERT
Инференс BERT | Процессор: Dual Xeon Gold 6240 с тактовой частотой 2,60 ГГц, точность = FP32, размер пакета = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, точность = INT8, размер пакета = 256 | A100 40GB и 80GB, размер пакета = 256, точность = INT8 с разреженностью.
Инференс RNN-T: один поток
MLPerf 0.7 RNN-T измерено с (1/7) инстансами MIG. Фреймворк: TensorRT 7.2, набор данных = LibriSpeech, точность = FP16.
Чтобы совершать новые научные открытия, ученые обращаются к моделированию для лучшего понимания окружающего мира.
NVIDIA A100 представляет тензорные ядра с двойной точностью, обеспечивающие самую большую производительность HPC с момента появления GPU. В сочетании с 80 ГБ самой быстрой памяти GPU исследователи могут уменьшить 10-часовой процесс моделирования с двойной точностью до менее четырех часов на A100. Приложения для высокопроизводительных вычислений также могут использовать TF32 в A100 для достижения до 11 раз большей пропускной способности для точных операций.
Для HPC-приложений с большими наборами данных дополнительная память A100 80GB увеличивает пропускную способность в 2 раза благодаря Quantum Espresso, пакету для моделирования материалов. Огромный объем памяти и высокая пропускная способность делают A100 80GB идеальной платформой для революционных рабочих нагрузок.
Ведущее приложение для HPC
Среднее геометрическое значение ускорения приложений по сравнению с P100: бенчмарк: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | узел с двумя процессорами, 4 GPU NVIDIA P100, V100 или A100.
Quantum Espresso
Quantum Espresso измерен с помощью набора данных CNT10POR8, точность = FP64.
Бенчмарк анализа больших данных | 30 запросов analytical retail, ETL, машинное обучение, обработка естественного языка на наборе данных 10 TБ | Процессор: Intel Xeon Gold 6252 с тактовой частотой 2,10 ГГц, Hadoop | DGX-1 V100 32GB, RAPIDS/Dask | A100 40GB и A100 80GB, RAPIDS/Dask/BlazingSQL
Специалистам по data science необходимо анализировать, визуализировать наборы данных и извлекать из них ценную информацию. Но помехой для горизонтально-масштабируемых решений зачастую становится распределенность наборов данных на нескольких серверах.
Чтобы справиться с рабочими нагрузками, ускоренные серверы с A100 обеспечивают необходимую вычислительную мощь наряду с огромной памятью, пропускной способностью более 2 ТБ/с и масштабируемостью с NVIDIA® NVLink® и NVSwitch™. В сочетании с InfiniBand, NVIDIA Magnum IO™ и набором библиотек с открытым исходным кодом RAPIDS™, включая RAPIDS Accelerator для Apache Spark для анализа данных с ускорением на GPU, платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и эффективность.
Во время бенчмарка анализа больших данных A100 80GB передавал информацию с более высокой производительностью до 83 раз, чем процессор, и до 2 раз более высокой производительностью, чем на A100 40GB, таким образом, он идеально подходит для рабочих нагрузок со стремительно растущими размерами наборов данных.
Инференс BERT | NVIDIA TensorRT™ (TRT) 7.1 | GPU NVIDIA T4 с тензорными ядрами: TRT 7.1, точность = INT8, размер пакета = 256 | V100: TRT 7.1, точность = FP16, размер пакета = 256 | A100 с 7 инстансами MIG с объемом памяти 5 Гб: размер пакета = 94, точность = INT8 с разреженностью.
A100 с технологией Multi-Instance GPU (MIG) обеспечивает максимальную утилизацию инфраструктуры с ускорением на GPU. Технология MIG позволяет разделить GPU A100 на семь отдельных инстансов и предоставить доступ к GPU большему числу пользователей. С A100 40GB каждый инстанс MIG может иметь объем до 5 ГБ, а с увеличенным объемом памяти A100 80GB он удваивается до 10 ГБ.
MIG работает с контейнерами Kubernetes и виртуализацей серверов с гипервизором. MIG позволяет разработчикам инфраструктуры предлагать оптимальный размер GPU с гарантированным качеством обслуживания (QoS) для каждой задачи, повышая утилизацию и предоставляя доступ к ресурсам для ускоренных вычислений большему числу пользователей.
Сертифицированная система NVIDIA включает в себя ускоритель A100, сетевые карты SmartNIC и DPU NVIDIA Mellanox. Она гарантированно обеспечивает производительность, функциональность, масштабируемость и безопасность, позволяя компаниям легко развертывать комплексные решения для задач ИИ из каталога NVIDIA NGC.
Исключительная производительность для всех нагрузок.
Универсальность для всех нагрузок.
* С разреженностью ** GPU SXM через серверные платы HGX A100; GPU PCIe через NVLink Bridge для конфигураций до 2 GPU
Узнайте об инновациях архитектуры NVIDIA Ampere и ее реализации в GPU NVIDIA A100.