АРХИТЕКТУРА NVIDIA AMPERE

Сердце самых производительных и масштабируемых дата-центров

ОСНОВА ДЛЯ ИИ И HPC В СОВРЕМЕННОМ ДАТА-ЦЕНТРЕ

Ученые, исследователи и инженеры работают над решением важнейших задач в науке, промышленности и области больших данных с помощью ИИ и высокопроизводительных вычислений (HPC). В то же время компании стремятся использовать возможности ИИ для получения новой информации из огромных наборов данных как на локальных, так и на облачных системах. NVIDIA Ampere — это огромный прорыв: архитектура, разработанная для эры эластичных вычислений, обеспечивает непревзойденное масштабируемое ускорение.

РЕВОЛЮЦИОННЫЕ ИННОВАЦИИ

Оснащенная 54 миллиардами транзисторов архитектура NVIDIA Ampere представляет собой самый большой в мире 7-нанометровый чип и имеет шесть ключевых инновационных особенностей.

Тензорные ядра третьего поколения

Впервые реализованная в архитектуре NVIDIA Volta™ технология тензорных ядер NVIDIA значительно ускоряет инференс и позволяет обучить алгоритмы ИИ за несколько часов, а не недель. Опираясь на эти инновации, архитектура NVIDIA Ampere предоставляет поддержку операций Tensor Float 32 (TF32) и с плавающей точкой (FP64), ускоряя и упрощая внедрение ИИ и обеспечивая возможности тензорных ядер для HPC.

TF32 работает аналогично FP32 и до 20 раз ускоряет инференс ИИ, не требуя изменений в коде. А при использовании автоматической функции работы с различной точностью NVIDIA исследователи могут получить производительность в 2 раза больше в операциях FP16, что требует добавления всего одной строки кода. Благодаря поддержке операций bfloat16, INT8 и INT4 тензорные ядра в GPU с тензорными ядрами на базе архитектуры NVIDIA Ampere создают универсальный ускоритель как для тренировки ИИ, так и для инференса. Обеспечивая возможности тензорных ядер для HPC, GPU A100 и A30 позволяют выполнять матричные операции с точностью FP64 в соответствии со стандартом IEEE. 

Тензорные ядра третьего поколения
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

Каждое приложение для ИИ и HPC работает быстрее с графическим ускорением, но не всем приложениям нужна полная мощность графического процессора. Технология Multi-Instance GPU (MIG) — это функция, поддерживаемая на GPU A100 и A30 и позволяющая совместно использовать ресурсы одного GPU. С MIG каждый GPU можно разделить на несколько полностью изолированных и защищенных на аппаратном уровне инстансов, оснащенных памятью с высокой пропускной способностью, кэшем и вычислительными ядрами. Это позволяет использовать ускорение для приложений с разной ресурсоемкостью, а также получить гарантированное качество обслуживания. Администраторы могут предложить оптимальные ресурсы GPU для любой задачи, повысить утилизацию и предоставить доступ большему числу пользователей как на физических серверах, так и в виртуализированной среде.

Структурная разреженность

Структурная разреженность

Современные сети ИИ становятся все больше и состоят из миллионов, а иногда и миллиардов, параметров. Не все эти параметры необходимы для точного прогнозирования и инференса, и некоторые из них можно преобразовать в нули, чтобы создать «разреженные» модели без ущерба для точности вычислений. Тензорные ядра обеспечивают производительность до двух раз выше для разреженных моделей. Хотя функция разреженности в основном предназначена для инференса ИИ, с ее помощью можно также повысить скорость тренировки модели. 

Второе поколение ядер RT

Ядра RT второго поколения архитектуры NVIDIA Ampere в GPU NVIDIA A40 и A10 позволяют значительно ускорить такие задачи, как фотореалистичный рендеринг киноматериалов, оценка архитектурных проектов и виртуальное прототипирование продуктов. Ядра RT также ускоряют рендеринг сцен движения, позволяя быстрее создавать более точное изображение, и одновременно обеспечивают трассировку лучей и шейдинг или шумоподавление.

Второе поколение ядер RT
Улучшенная быстрая память

Улучшенная быстрая память

A100 обеспечивает значительный объем памяти для вычислений в дата-центре. Для максимальной утилизации вычислительных движков платформа оснащена пропускной способностью памяти 2 Тб/с, что в 2 раза быстрее технологии предыдущего поколения. Кроме того, для максимальной вычислительной мощности A100 имеет значительно больший объем памяти, включая кэш второго уровня 40 Мб, что в 7 раз больше, чем у систем предыдущего поколения.

Конвергентное ускорение на периферийных устройствах

Сочетание архитектуры NVIDIA Ampere и DPU NVIDIA BlueField®-2 в конвергентных ускорителях NVIDIA обеспечивает непревзойденную мощность вычислений и ускорение сетей для обработки больших объемов данных в дата-центре и на периферийных устройствах. BlueField-2 сочетает в себе возможности NVIDIA ConnectX®-6 Dx, программируемых ядер Arm и аппаратной разгрузки для программно-определяемых СХД, сетей, безопасности и управления. Конвергентные ускорители NVIDIA позволяют выполнять рабочие нагрузки на границе сети и в дата-центре с высоким уровнем безопасности и производительности.

Конвергентное ускорение на периферийных устройствах
Оптимизация плотности

Оптимизация плотности

GPU NVIDIA A16 поставляется с четырехпроцессорной платой, оптимизированной для высокой плотности пользователей. В сочетании с ПО NVIDIA Virtual PC (vPC) он позволяет обеспечить доступ к графически насыщенным виртуальным ПК из любой точки. Он гарантирует более высокую частоту смены кадров и более низкую задержку для конечных пользователей по сравнению традиционной VDI на базе CPU с NVIDIA A16, что позволяет обеспечить более высокую отзывчивость приложений и пользовательский интерфейс, неотличимый от своего ПК.

Инновации в архитектуре NVIDIA Ampere

Изучите передовые технологии архитектуры и полную линейку GPU