Платформа для ускорения ввода-вывода в дата-центре
Компании уточняют свои данные и становятся производителями интеллекта. Дата-центры превращаются в фабрики искусственного интеллекта с ускоренными вычислениями, которые ускоряют расчеты в миллионы раз. Однако для ускоренных вычислений требуется ускоренный ввод-вывод. NVIDIA Magnum IO™ — это архитектура для параллельного интеллектуального ввода-вывода в дата-центре. Она максимизирует скорость обмена данными между системой хранения данных, сетью и системами с несколькими узлами и графическими процессорами для самых важных приложений в мире, использующих масштабные языковые модели, рекомендательные системы, визуализацию, моделирование и научные исследования.
NVIDIA Magnum IO использует решения для ввода-вывода в системах хранения данных, сетях, внутрисетевых вычислениях и для управления вводом-выводом для упрощения и ускорения доступа, передачи, а также управления данными в системах с несколькими графическими процессорами и узлами. Magnum IO поддерживает библиотеки NVIDIA CUDA-X™ и максимально эффективно использует графические процессоры и сетевую аппаратную топологию NVIDIA, достигая оптимальной пропускной способности и низкой задержки.
[Блог разработчиков] Magnum IO: ускорение ввода-вывода в современном дата-центре
В системах с несколькими узлами и графическими процессорами медленный процессор и однопоточная работа затрудняют доступ к данным на локальных или удаленных устройствах хранения. Благодаря ускорению ввода-вывода графический процессор не задействует системную память и процессор и получает доступ к удаленной системе хранения с помощью 8 сетевых адаптеров 200 Гбит/с, обеспечивающих пропускную способность до 1,6 ТБ/с.
Технологии:
Сети NVIDIA NVLink®, NVIDIA Quantum InfiniBand и Ethernet и архитектура RDMA для ускорения ввода-вывода данных в сети снижают нагрузку на систему ввода-вывода, не задействуя процессор и обеспечивая прямую передачу данных между GPU.
Внутрисетевые вычисления обеспечивают обработку данных в сети, устраняя задержки при переходе к конечным точкам и на других этапах. Блоки обработки данных (DPU) обеспечивают программно-определяемые сетевые вычисления с аппаратным ускорением, включая предварительно настроенные и программируемые движки обработки данных.
Чтобы обеспечить оптимизацию ввода-вывода для вычислений, сетей и систем хранения данных, пользователям необходима телеметрия и современные технологии устранения неполадок. Платформы для управления Magnum IO позволяют администраторам научных и промышленных дата-центров эффективно управлять современными инфраструктурами и профилкатически обслуживать их.
NVIDIA Magnum IO взаимодействует с библиотеками высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ) NVIDIA и ускоряет ввод-вывод в широком спектре задач: от ИИ до научной визуализации.
Сегодня обработка и анализ данных и машинное обучение (ML) — это самые требовательные к вычислениям области. Даже небольшие улучшения точности моделей машинного обучения для прогнозирования могут в итоге сэкономить миллиарды долларов.
Чтобы повысить точность, библиотека RAPIDS™ Accelerator оснащена встроенным ускоренным механизмом перетасовок Apache Spark на базе UCX, который можно настроить для коммуникации между GPU и использования возможностей RDMA. Оснащенная сетевыми решениями NVIDIA, ПО NVIDIA Magnum IO, GPU-ускоренным Spark 3.0 и NVIDIA RAPIDS™ платформа NVIDIA для дата-центров призвана ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и энергоэффективность.
Система хранения данных GPUDirect Storage (GDS) интегрирована с RAPIDS для приложений для чтения ORC, Parquet, CSV и Avro. RAPIDS CuIO обеспечивает повышение производительности до 4,5 раз при работе с файлами Parquet с использованием GDS в крупномасштабных рабочих процессах.
Adobe в 7 раз ускоряет обучение моделей при помощи Spark 3.0 на базе Databricks и снижает затраты до 90%
Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска источников энергии и атмосферные данные — для разработки точных прогнозов экстремальных погодных условий. Ведущие инструменты моделирования и приложения используют NVIDIA Magnum IO, чтобы ускорить получение информации. Magnum IO предоставляет движки для аппаратного ускорения и технологии интеллектуальной разгрузки, например RDMA, NVIDIA GPUDirect и NVIDIA SHARP, а также поддерживает высокую пропускную способность и сверхнизкую задержку для подключенных к сетям NVIDIA InfiniBand и NVIDIA NVLink графических процессоров.
В средах с несколькими арендаторами пользователи могут не осознавать нерегулируемое вмешательство трафика соседних приложений. Magnum IO на новой платформе NVIDIA Quantum-2 InfiniBand предлагает улучшенные возможности для уменьшения негативного воздействия на производительность. Это обеспечивает оптимальные результаты и наиболее эффективное развертывание приложений для высокопроизводительных вычислений (HPC) и машинного обучения в любом масштабе.
Библиотеки Magnum IO и приложения HPC
Производительность VASP существенно повышается при замене MPI на NCCL. UCX ускоряет работу приложений для научных вычислений, таких как VASP, Chroma, MIA-AI, Fun3d, CP2K и Spec-HPC2021, для ускорения работы системных часов.
NVIDIA HPC-X повышает доступность процессора, масштабируемость приложений и эффективность системы, что ведет к увеличению производительности приложений, которые распространяются различными независимыми поставщиками программного обеспечения для высокопроизводительных вычислений. NCCL, UCX и HPC-X являются частью набора средств разработки HPC-SDK.
Быстрые преобразования Фурье (БПФ) широко используются в самых разных областях: от молекулярной динамики, обработки сигналов и вычислительной гидродинамики (CFD) до беспроводных мультимедийных приложений и приложений машинного обучения. Благодаря использованию NVIDIA Shared Memory Library (NVSHMEM)™ cuFFTMp не зависит от реализации MPI и работает со скоростью, близкой к скорости света. Это имеет очень большое значение, поскольку производительность может значительно различаться между разными MPI.
Библиотека квантовой хромодинамики на решетке для качественного анализа данных (QUDA) может использовать NVSHMEM для обмена данными, чтобы уменьшить нагрузку, связанную с синхронизацией процессора и GPU и улучшить перекрытие вычислений и обмена данными. Это уменьшает задержки и улучшает существенное масштабирование.
Системы с несколькими узлами и графическими процессорами: использование БПФ NVIDIA cuFFTMp в большом масштабе
Крупнейшая интерактивная визуализация: моделирование модуля NASA на Марсе, 150 ТБ
Развивающийся класс экзафлопсных высокопроизводительных вычислений и моделей искусственного интеллекта с триллионами параметров для таких задач, как сверхчеловеческий разговорный ИИ, требует месяцев обучения даже на суперкомпьютерах. Сжатие этого процесса до скорости ведения бизнеса для завершения обучения в течение нескольких дней требует высокоскоростной и бесперебойной связи между каждым графическим процессором в кластере серверов, чтобы обеспечить возможность масштабирования их производительности. Сочетание NVIDIA NVLink, NVIDIA NVSwitch, библиотек NVIDIA Magnum и надежного масштабирования в рамках всех серверов обеспечивает ускорение обучения модели ИИ до 9 раз на моделях смешения мнений экспертов (MoE). Это позволяет исследователям обучать массивные модели со скоростью ведения бизнеса.
Библиотеки Magnum IO и интеграция с глубоким обучением
NCCL и другие библиотеки Magnum IO прозрачно используют новейший графический процессор NVIDIA H100, NVLink, NVSwitch и сети InfiniBand, чтобы обеспечить значительное ускорение задач глубокого обучения, в частности работы рекомендательных систем и обучения масштабных языковых моделей.
К преимуществам NCCL относится более быстрое моделирование точности обучения при достижении почти 100-процентной пропускной способности между серверами в распределенной среде.
Система хранения данных Magnum IO GPUDirect Storage (GDS) была включена в библиотеку загрузки данных (DALI) через оператор чтения Numpy. GDS увеличивает производительность инференса глубокого обучения с помощью DALI до 7,2 раза по сравнению с базовым значением для Numpy.
Чтобы ученые могли и дальше расширять границы возможного с помощью ИИ, им необходима высокая производительность и масштабируемость. Сочетание сетевых технологий NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch и программного стека Magnum IO обеспечивает не требующую дополнительных настроек масштабируемость для сотен и тысяч графических процессоров, работающих вместе.
Производительность выше в 1,9 раза на LBANN с NVSHMEM по сравнению с MPI
Графические процессоры используются для ускорения сложных и трудоемких задач в ряде сфер применения: от вещательной графики до реконструкции стереоскопических изображений в реальном времени.
Технология NVIDIA GPUDirect для видео обеспечивает эффективное взаимодействие оборудования сторонних производителей с графическими процессорами NVIDIA и позволяет минимизировать традиционные проблемы с задержками. Благодаря NVIDIA GPUDirect для видео устройства ввода-вывода полностью синхронизируются с графическим и центральным процессорами, что позволяет свести к минимуму ненужные циклы копирования данных между драйверами устройств.
GPUDirect Storage (GDS) интегрируется с расширяемым набором инструментов cuCIM, разработанным для обеспечения ускоренного ввода-вывода с GPU, компьютерного зрения и примитивов обработки N-мерных изображений с упором на биомедицинскую визуализацию.
В следующих двух примерах NVIDIA IndeX® используется вместе с GDS для ускорения визуализации очень больших наборов данных.
Визуализируйте микроскопические изображения живых клеток в реальном времени с помощью NVIDIA Clara™ Holoscan
> NVIDIA Magnum IO на GitHub > NVIDIAGPUDirect Storage: прямая магистраль между системой хранения данных и памятью GPU > Ускорение ввода-вывода в современном дата-центре > Ускорение коллективных операций на базе Teams в NVSHMEM 2.0 с помощью NCCL > Оптимизация перемещения данных в приложениях с поддержкой GPU с помощью среды разработки NVIDIA Magnum IO > Ускорение работы облачных суперкомпьютеров с помощью Magnum IO > Доступ к MOFED
Подпишитесь на новости и обновления NVIDIA Magnum IO.
Обеспечивает передачу данных непосредственно в память GPU, устраняя узкие места на пути данных через память процессора/системы. Исключает задержку при дополнительном копировании в системную память, что влияет на передачу небольших объемов данных и снижает нагрузку на процессор благодаря более независимой работе системы.
ПОДРОБНЕЕ ›
Читать блог: GPUDirect Storage: прямая магистраль между системой хранения данных и памятью GPU
Смотреть вебинар: NVIDIA GPUDirect Storage: ускорение передачи данных на GPU
Логически представляет собой СХД, например NVMe over Fabrics (NVMe-oF), выступает в качестве локального диска NVMe, и позволяет хост-системе ОС/гипервизору использовать стандартный диск NVMe вместо протокола удаленного сетевого хранилища.
Набор библиотек и оптимизированных драйверов NIC для быстрой обработки пакетов в пространстве пользователя, предоставляющий фреймворк и общий API для высокоскоростных сетевых приложений.
Открывает сетевому адаптеру прямой доступ к чтению или записи в буфер данных в одноранговых устройствах. Позволяет приложениям на основе RDMA использовать вычислительную мощность одноранговых устройств без копирования данных через память хоста.
Открытый фреймворк обмена данными производственного класса для ориентированных на данные и высокопроизводительных приложений. Содержит низкоуровневый интерфейс, который обеспечивает основные сетевые операции, поддерживаемые базовым оборудованием. Включает в себя библиотеки MPI и SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM и стандартные бенчмарки MPI.
Обеспечивает примитивы взаимодействия с учетом топологии путем плотной синхронизации взаимодействующих процессоров. NCCL ускоряет коллективные операции и сокращает время работы системных часов. NCCL интегрируется с различными компонентами RAPIDs ML, набором инструментов Rapids Analytics Framework Toolkit (RAFT) и DASK-cuML. cuML — это набор библиотек, реализующих алгоритмы машинного обучения и функции математических примитивов. NCCL интегрируется с PyTorch, NVIDIA Merlin™ HugeCTR, NVIDIA Nemo Megatron, NVIDIA Riva, контейнером TensorFlow и контейнером MXNET.
NVSHMEM — это модель программирования, которая позволяет приложениям обеспечивать детализированный доступ через распределенное масштабируемое межсоединение NVLink 4-го поколения, частично накладывая его на вычисления. Это позволяет значительно ускорить работу распределенных приложений для научных вычислений, таких как cuFFT с использованием NVSHMEM.
NVSHMEM предоставляет интерфейс параллельного программирования на базе стандарта OpenSHMEM, создающий глобальное адресное пространство для распределения памяти нескольких GPU на нескольких серверах.
UCX — это открытый фреймворк для ориентированных на данные и высокопроизводительных приложений. Содержит низкоуровневый интерфейс, который обеспечивает основные сетевые операции, поддерживаемые базовым оборудованием. Также включает в себя высокоуровневый интерфейс для построения протоколов в библиотеках MPI, OpenSHMEM, PGAS, Spark и других приложениях для глубокого обучения и высокопроизводительных вычислений.
UCX обеспечивает двухточечную связь с GPU-ускорением, обеспечивая наилучшую производительность при использовании соединений NVLINK, PCIe, Ethernet или InfiniBand между вычислительными элементами графического процессора.
Набор функций, ускоряющих коммутацию и обработку пакетов. ASAP2 переносит управление данными и безопасность с процессора в сеть, повышает эффективность, добавляет контроль и изолирует их от вредоносных приложений.
NVIDIA® BlueField DPU® снимает с процессора важные задачи обеспечения сети, безопасности и хранения и представляет собой лучшее решение для устранения проблем производительности, организации сетей и кибербезопасности в современном дата-центре.
Сокращает время обмена данными с MPI и оптимизирует совмещение вычислений и передачи данных. Используется адаптерами NVIDIA Mellanox InfiniBand для переноса обработки сообщений MPI с хост-машины на сетевые адаптеры и позволяет создать нулевую копию сообщений MPI.
Повышает производительность алгоритмов сокращения и агрегирования данных, таких как MPI, SHMEM, NCCL и других, за счет переноса нагрузки с GPU или процессора на сетевые коммутаторы или блоки обработки данных и устраняет необходимость многократной передачи данных между конечными точками InfiniBand и NVLink 4-го поколения. Интеграция SHARP повышает производительность NCCL до 4 раз и в 7 раз снижает совокупную задержку для MPI. SHARP поддерживается UFM, HPC-X, NCCL и большинством пакетов MPI на основе отраслевых стандартов.
Внедрите комплексную визуализацию, устранение неполадок и DevOps в современную сеть дата-центра с помощью NVIDIA NetQ, высокомасштабируемого современного набора инструментов для сетевых операций, который проверяет ваши фабрики NVIDIA® Cumulus® Linux и SONiC в режиме реального времени.
Обеспечивает отладку, мониторинг, управление и эффективную подготовку фабрики в дата-центре для InfiniBand. Поддержка телеметрии сети в реальном времени с помощью анализа киберугроз на базе ИИ и аналитики.