This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A30 с тензорными ядрами

Универсальное ускорение вычислений для основных корпоративных серверов.

Подробнее

Инференс ИИ и вычисления для каждого предприятия

Обеспечьте ускорение для любой корпоративной рабочей нагрузки с помощью GPU NVIDIA A30 с тензорными ядрами. С архитектурой NVIDIA Ampere, тензорными ядрами и технологией MIG этот GPU обеспечивает безопасное ускорение для различных рабочих нагрузок, включая инференс ИИ и приложения для высокопроизводительных вычислений (HPC). Сочетая высокую пропускную способность памяти и низкое энергопотребление в форм-факторе PCIe, оптимальном для популярных серверов, A30 позволяет создать гибкий дата-центр и обеспечивает максимум прибыли для предприятий.

Посмотреть техническое описание NVIDIA A30 (PDF 708 КБ)

Посмотреть краткое описание A30 для PCIe (PDF 539 КБ)

Дата центр для современной инфраструктуры

Архитектура NVIDIA Ampere является частью унифицированной платформы NVIDIA EGX™ и включает в себя составные элементы аппаратного, сетевого, программного обеспечения, библиотек и оптимизированных моделей ИИ и приложений из каталога NVIDIA NGC™. Представляя собой самую производительную комплексную платформу для ИИ и HPC, HGX A100 позволяет получать результаты в реальном времени и разворачивать масштабируемые решения.

Тренировка алгоритмов глубокого обучения

Обучение ИИ: повышение производительности до 3 раз по сравнению с v100 и до 6 раз по сравнению с T4

Предварительное обучение BERT (стандартизировано)

NVIDIA A30 с тензорными ядрами с Tensor Float (TF32)

ERT-Large Pre-Training (9/10 epochs) Phase 1 and (1/10 epochs) Phase 2, Sequence Length for Phase 1 = 128 and Phase 2 = 512, dataset = real, NGC™ container = 21.03,

8x GPU: T4 (FP32, BS=8, 2) | V100 PCIE 16GB (FP32, BS=8, 2) | A30 (TF32, BS=8, 2) | A100 PCIE 40GB (TF32, BS=54, 8) | размеры пакетов для фазы 1 и фазы 2 соответственно

Обучение моделей ИИ для решения продвинутых задач, таких как разговорный ИИ, требует большой вычислительной мощности и масштабируемости.

Тензорные ядра в NVIDIA A30 с поддержкой Tensor Float (TF32) повышают производительность в 10 раз по сравнению с NVIDIA T4 , не требуя изменений в коде, и в 2 раза ускоряют автоматическую функцию работы с различной точностью и FP16, в общем повышая производительность до 20 раз. При объединении с NVIDIA^® NVLink^®, PCI Gen4, NVIDIA Mellanox^® и SDK NVIDIA Magnum IO™ ускоритель A30 можно масштабировать в тысячи раз.

Тензорные ядра и MIG позволяют использовать A30 для рабочих нагрузок в течение дня. Его можно использовать для инференса при пиковом спросе, а часть GPU можно перепрофилировать для быстрой повторного обучения тех же самых моделей в часы наименьшей загрузки.

NVIDIA установила несколько рекордов производительности в отраслевом бенчмарке для обучения алгоритмов ИИ MLPerf.

Подробнее об архитектуре NVIDIA Ampere для обучения ›

Инференс глубокого обучения

A30 представляет революционные функции для оптимизации инференса. Он ускоряет широкий диапазон операций: от FP64 до TF32 и INT4. Поддерживая до четырех MIG на GPU, A30 позволяет нескольким сетям работать одновременно в защищенных аппаратных сегментах с гарантированным качеством обслуживания (QoS). А структурная поддержка разреженности повышает производительность до 2 раз помимо других преимуществ A30 в задачах инференса.

В современных разговорных моделях ИИ A30 в 3 раза увеличивает пропускную способность в реальном времени по сравнению с предыдущим поколением GPU NVIDIA V100 с тензорными ядрами.

При классификации изображений в реальном времени (которая требует задержки <7 мс) A30 увеличивает пропускную способность в 7 раз по сравнению с NVIDIA T4.

В MLPerf Inference была продемонстрирована ведущая в отрасли производительность NVIDIA. В сочетании с сервером для инференса NVIDIA Triton™, который с легкостью развертывает ИИ в масштабе, A30 обеспечивает революционную производительность для любого предприятия.

Подробнее об архитектуре NVIDIA Ampere для инференса ›

Инференс ИИ: повышение производительности до 3 раз по сравнению с v100 для разговорного ИИ в реальном времени

Инференс BERT (стандартизировано)
Пропускная способность для задержки < 10 мс

NVIDIA^® TensorRT^®, Precision = INT8, Sequence Length = 384, контейнер NGC 20.12, задержка <10ms, Dataset = Synthetic 1x GPU: A100 PCIe 40GB (BS=8) | A30 (BS=4) | V100 SXM2 16GB (BS=1) | T4 (BS=1)

Инференс ИИ: повышение производительности до 3 раз по сравнению с T4 для классификации изображений в реальном времени

Инференс RN50 v1.5 (нормализованный)
Пропускная способность для задержки < 7 мс

TensorRT, контейнер NGC 20.12, задержка <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)

Высокопроизводительные вычисления

HP: производительность до 1,1 выше, чем на V100, и до 8 раз выше T4

LAMMPS (Нормализовано)

Набор данных: ReaxFF/C, FP64 | 4 GPU: T4, V100 PCIE 16ГБ, A30

Чтобы совершать новые научные открытия, ученые обращаются к моделированию для лучшего понимания окружающего мира.

NVIDIA A30 на базе архитектуры NVIDIA Ampere с поддержкой FP64 оснащен тензорными ядрами, которые обеспечивают самый большой скачок в производительности HPC с момента появления GPU. В сочетании с 24 ГБ видеопамяти с пропускной способностью 933 ГБ/с исследователи могут быстро решать задачи с двойной точностью вычислений. Приложения для высокопроизводительных вычислений также могут использовать TF32 в A100 для достижения большей пропускной способности для точных операций.

Сочетание операций FP64 и MIG позволяет безопасно разделять GPU, что дает доступ нескольким исследователям к вычислительным ресурсам с гарантированным QoS и максимальной утилизацией GPU. Предприятия, развертывающие ИИ, могут использовать возможности инференса A30 в периоды максимальной нагрузки, а затем перепрофилировать одни и те же вычислительные серверы для тренировки HPC и ИИ в часы наименьшей загрузки.

Подробнее об архитектуре NVIDIA Ampere для HPC ›

Высокопроизводительный анализ данных

Специалистам по data science необходимо анализировать, визуализировать наборы данных и извлекать из них ценную информацию. Но помехой для горизонтально-масштабируемых решений зачастую становится распределенность наборов данных на нескольких серверах.

Чтобы справиться с рабочими нагрузками, ускоренные серверы с A30 обеспечивают необходимую вычислительную мощь наряду с огромной памятью HBM2, пропускной способностью 933 Гбит/с и масштабируемостью с NVLink. В сочетании с InfiniBand, NVIDIA Magnum IO и набором библиотек с открытым исходным кодом RAPIDS™, включая RAPIDS Accelerator для Apache Spark, платформа NVIDIA для дата-центров позволяет ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и эффективность.

Подробнее об анализе данных ›

Высокопроизводительный анализ данных

Подробнее об анализе данных ›

Утилизация инфраструктуры

A30 с технологией Multi-Instance GPU (MIG) обеспечивает максимальную утилизацию инфраструктуры с ускорением на GPU. Технология MIG позволяет разделить GPU A30 на четыре отдельных инстанса и предоставить доступ к GPU большему числу пользователей.

MIG работает с контейнерами Kubernetes и виртуализацей серверов с гипервизором. MIG позволяет разработчикам инфраструктуры предлагать оптимальный размер GPU с гарантированным качеством обслуживания (QoS) для каждой задачи, повышая утилизацию и предоставляя доступ к ресурсам для ускоренных вычислений большему числу пользователей.

Подробнее о mig ›

NVIDIA AI Enterprise

NVIDIA AI Enterprise, комплексный набор ПО с поддержкой облака для ИИ и анализа данных, сертифицирован для работы на A30 в виртуальной инфраструктуре с гипервизорами с VMware vSphere. Это позволяет управлять и масштабировать рабочие нагрузки ИИ в гибридной облачной среде.

Подробнее о NVIDIA AI Enterprise ›

Спецификации GPU A30 с тензорными ядрами

FP64	5,2 Терафлопс
Тензорные ядра для FP64	10,3 Терафлопс
FP32	10,3 Терафлопс
Тензорные ядра для TF32	82 Терафлопса \| 165 Терафлопс*
Тензорные ядра для BFLOAT16	165 Терафлопс \| 330 Терафлопс*
Тензорные ядра для FP16	165 Терафлопс \| 330 Терафлопс*
Тензорные ядра для INT8	330 TOPS \| 661 TOPS*
Тензорные ядра для INT4	661 TOPS \| 1321 TOPS*
Процессор среды	1 ускоритель оптического потока (OFA) 1 Декодер JPEG (NVJPEG) 4 видео-декодеров (NVDEC)
Объем видеопамяти	24 ГБ HBM2
Пропускная способность памяти	933 Гбит/с
Межсоединение	PCIe Gen4 64 Гбит/с NVLINK третьего поколения: 200 Гбит/с**
Форм-фактор	Два слота, полноразмерный форм-фактор (FHFL)
Максимальный теплоотвод (TDP)	165 Вт
Multi-Instance GPU (MIG)	4 инстанса GPU, 6 ГБ каждый 2 инстанса GPU, 12 ГБ каждый 1 инстанс GPU 24 ГБ
Поддержка Virtual GPU (vGPU)	NVIDIA AI Enterprise NVIDIA Virtual Compute Server

* С разреженностью
** NVLink Bridge для конфигураций до 2 GPU

Посмотрите последние результаты бенчмарка MLPerf

ПОСМОТРЕТЬ РЕЗУЛЬТАТЫ

Инновации в архитектуре NVIDIA Ampere

Исследуйте инновации архитектуры и полную линейку графических процессоров на ее базе.

ПОСМОТРЕТЬ ЛИНЕЙКУ

GPU NVIDIA A30 с тензорными ядрами

Инференс ИИ и вычисления для каждого предприятия

Дата центр для современной инфраструктуры

Тренировка алгоритмов глубокого обучения

Обучение ИИ: повышение производительности до 3 раз по сравнению с v100 и до 6 раз по сравнению с T4

Инференс глубокого обучения

Инференс ИИ: повышение производительности до 3 раз по сравнению с v100 для разговорного ИИ в реальном времени

Инференс ИИ: повышение производительности до 3 раз по сравнению с T4 для классификации изображений в реальном времени

Высокопроизводительные вычисления

HP: производительность до 1,1 выше, чем на V100, и до 8 раз выше T4

Высокопроизводительный анализ данных

Высокопроизводительный анализ данных

Утилизация инфраструктуры

NVIDIA AI Enterprise

Популярные сертифицированные системы NVIDIA

Спецификации GPU A30 с тензорными ядрами

Инновации в архитектуре NVIDIA Ampere