NVIDIA Multi-Instance GPU

Семь независимых инстансов в одном GPU

Технология Multi-Instance GPU (MIG) повышает производительность каждого ускорителя NVIDIA H100, A100 и A30 с тензорными ядрами. MIG позволяет разделить графический процессор на семь полностью изолированных инстансов, оснащенных памятью с высокой пропускной способностью, кэшем и вычислительными ядрами. Теперь администраторы могут обеспечить нагрузки любой сложности с гарантированным качеством обслуживания (QoS) для каждой задачи и предоставить доступ к ресурсам для ускоренных вычислений большему числу пользователей.

Преимущества Обзор

Увеличение числа пользователей

Расширенный доступ к GPU

Благодаря MIG вы можете получить до 7 раз больше ресурсов на одном графическом процессоре. Технология предоставляет исследователям и разработчикам больше ресурсов и гибкости, чем когда-либо прежде.

Оптимизация утилизации GPU

Оптимизация утилизации GPU

MIG обеспечивает высокую гибкость размеров инстансов, благодаря чему можно выбрать оптимальный размер инстанса GPU для каждой рабочей нагрузки, и, в конечном счете, повысить утилизацию и максимизировать выгоду от вложений в дата-центр.

Одновременное выполнение нескольких нагрузок

Одновременное выполнение нагрузок

MIG позволяет одновременно выполнять нагрузки инференса, тренировки и высокопроизводительных вычислений (HPC) на одном GPU с детерминированной задержкой и пропускной способностью. В отличие от поочередного выполнения, все нагрузки выполняются параллельно, что обеспечивает высокую производительность.

Как работает технология

Без MIG различные задачи, выполняемые на одном GPU, такие как запросы инференса ИИ, используют одни и те же ресурсы. Задачи, потребляющие большое количество памяти, также влияют и на другие нагрузки, и в результате задержка увеличивается для всех задач. С технологией MIG задачи выполняются одновременно на разных инстансах, каждый из которых оснащен специализированными ресурсами для вычислений, памятью и пропускной способностью, что обеспечивает предсказуемую производительность, качество обслуживания и утилизацию GPU.

Multi-Instance GPU

Предоставление и настройка инстансов по мере необходимости

Один графический процессор можно разделить на инстансы разного размера. Например, администратор может создать на базе NVIDIA A100 c 40 ГБ памяти два инстанса с 20 ГБ памяти каждый, три инстанса с 10 ГБ каждый или семь с 5 ГБ каждый. Или использовать микс инстансов разного размера. 

Конфигурацию инстансов MIG можно динамически менять, и это позволяет администраторам перераспределять ресурсы GPU в зависимости от пользователя и задач компании. Например, семь инстансов MIG можно использовать в течение дня для не очень ресурсоемкого инференса и объединить их в один инстанс для тренировки алгоритмов глубокого обучения ночью.

Безопасное и параллельное выполнение задач

Благодаря выделенному набору аппаратных ресурсов для вычислений, памяти и кэш-памяти каждый инстанс MIG обеспечивает гарантированное качество обслуживания и изоляцию сбоев. Это означает, что сбой приложения на одном инстансе не повлияет на приложения, запущенные на других инстансах.

Кроме того, разные инстансы могут выполнять различные типы нагрузок: интерактивную разработку моделей, тренировку алгоритмов глубокого обучения, инференс ИИ или запуск приложений для НРС. Так как инстансы работают параллельно, рабочие нагрузки также выполняются параллельно, но обособленно и безопасно, на одном физическом графическом процессоре.

Технология MIG в NVIDIA H100

Созданный на базе архитектуры NVIDIA Hopper™, чип H100 еще больше расширяет возможности MIG, поддерживая многопользовательские конфигурации в виртуализированных средах с использованием до семи инстансов GPU, надежно изолируя каждый инстанс с помощью конфиденциальных вычислений на уровне оборудования и гипервизора. Выделенные видеодекодеры для каждого инстанса MIG обеспечивают безопасную высокоскоростную интеллектуальную видеоаналитику (IVA) в общей инфраструктуре. С помощью параллельного профилирования MIG администраторы могут отслеживать GPU-ускорение и распределять ресурсы между несколькими пользователями. 

Исследователи с небольшими рабочими нагрузками вместо аренды полного облачного инстанса могут использовать MIG с безопасной изоляцией части GPU и быть уверенными в безопасности своих данных – при их хранении, передаче и обработке. Для поставщиков облачных услуг это дает большую гибкость в плане ценообразования и работы с клиентскими проектами малого масштаба.

Как работает MIG

GPU NVIDIA A100 с тензорными ядрами

Выполнение нескольких задач на одном GPU A100

В демо одновременно выполняются задачи ИИ и высокопроизводительных вычислений (HPC) на одном ускорителе A100.

Технология Multi-Instance GPU в NVIDIA A100 с тензорными ядрами

Повышение производительности и утилизации с технологией MIG

Демо показывает производительность инференса на одном инстансе MIG и затем масштабирование на все ресурсы A100.

Преимущества для разработчиков и инженеров

MIG позволяет разработчикам и ИТ-администраторам обеспечить максимально точное распределение ресурсов GPU. Каждый инстанс MIG работает как автономный GPU, поэтому для запуска приложений не нужно менять модель CUDA®. MIG можно использовать во всех основных корпоративных вычислительных средах.

Максимальная гибкость дата-центра

GPU NVIDIA A100 можно разделить на инстансы разного размера. Например, администратор может создать два инстанса с 20 Гб памяти каждый, три инстанса с 10 Гб или семь с 5 Гб, а также их комбинации. Это позволяет предоставить пользователям GPU оптимального размера для разных типов нагрузки.

Конфигурацию инстансов MIG можно динамически менять, и это позволяет администраторам перераспределять ресурсы GPU в зависимости от пользователя и задач компании. Например, семь инстансов MIG можно использовать в течение дня для не очень ресурсоемкого инференса и объединить их в один инстанс для тренировки алгоритмов глубокого обучения ночью.

Исключительное качество услуг

Каждый инстанс MIG оснащен специализированным набором аппаратных ресурсов для вычислений, памяти и кэша, что обеспечивает гарантированно высокое качество услуг и изоляцию неисправностей. Это означает, что сбой приложения на одном инстансе не повлияет на приложения, запущенные на других инстансах. Разные инстансы могут выполнять различные типы нагрузок: интерактивную разработку моделей, тренировку алгоритмов глубокого обучения, инференс ИИ или запуск приложений для НРС. Так как инстансы работают параллельно, рабочие нагрузки также выполняются параллельно, но обособленно и безопасно, на одном физическом ускорителе GPU A100.

MIG оптимально подходит для таких задач, как разработка моделей ИИ и инференс с низкой задержкой. Нагрузки могут использовать все возможности A100 и размещаться в выделенной памяти каждого инстанса.

Спецификации MIG

H100 A100
Конфиденциальные вычисления Да -
Типы инстансов 7х 10 ГБ
4x 20 ГБ
2х 40 ГБ (больше вычислительной мощности)
1x 80 ГБ
7х 10 ГБ
3x 20 ГБ
2x 40 ГБ
1x 80 ГБ
Профилирование и мониторинг GPU Одновременно на всех инстансах Только один инстанс за раз
Защищенные арендаторы 7x 1x
Медиа-декодеры Выделенные декодеры NVJPEG и NVDEC на каждый инстанс Ограниченные опции

 Данные спецификации являются предварительными и могут быть изменены.

Подробный обзор архитектуры NVIDIA Hopper

Подробный обзор архитектуры NVIDIA Ampere