Подсистема ввода-вывода для современного дата-центра с ускорением на GPU
Дата-центр — это новая платформа вычислений, и в ее основе лежат графические процессоры и сетевые решения NVIDIA. Ускоренные вычисления требуют ускорения ввода-вывода для максимальной производительности. Подсистема ввода-вывода в современном дата-центре NVIDIA Magnum IO™ — это архитектура параллельного, асинхронного и интеллектуального ввода-вывода в дата-центре, оптимизирующая передачу данных в сетях и СХД для ускорения систем с несколькими GPU и узлами.
Magnum IO представляет новые возможности для сверхпроизводительных вычислений в области ИИ, ускоряющие ввод-вывод и передачу данных в многоарендных дата-центрах.
Magnum IO GPUDirect через сеть InfiniBand обеспечивает революционную архитектуру для передачи объемного видео (volumetric video) Verizon. Размещая свои технологии в центрах для периферийных вычислений, расположенных по всей территории США и на объектах Verizon, компания расширяет возможности передачи интерактивного 3D-контента по сети 5G.
Обеспечивает прямой обмен данными между памятью GPU, сетью и СХД в обход CPU, повышая пропускную способность в 10 раз.
Уменьшает состязание за ресурсы процессора, распределяет нагрузку системы с ускорением на GPU и обеспечивает максимальную пропускную способность, задействуя до 10 раз меньше ядер CPU и до 30 раз снижая его утилизацию.
Обеспечивает оптимизированную интеграцию настоящих и будущих платформ, независимо от их требований к задержке, скорости и/или пропускной способности.
Magnum IO использует решения для хранения, сетей, внутрисетевых вычислений и управления вводом-выводом для упрощения и ускорения доступа, передачи, и управления данными в системах с несколькими GPU и узлами. Magnum IO поддерживает библиотеки NVIDIA CUDA-X™ и максимально эффективно использует графические процессоры и сетевую аппаратную топологию NVIDIA, достигая оптимальной пропускной способности и задержки.
[Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center
В системах с несколькими узлами и GPU медленный процессор и однопоточная производительность затрудняют доступ к данным из локальных или удаленных устройств хранения. Благодаря ускорению ввода-вывода GPU не задействует системную память и процессор и получает доступ к удаленному хранилищу с помощью в 8 раз более быстрых сетевых адаптеров, обеспечивающих пропускную способность до 1,6 Тбит/с.
Технологии:
Архитектура NVIDIA NVLink® и RDMA для ускорения передачи данных в сети снижают нагрузку на систему ввода-вывода, не задействуя процессор и обеспечивая прямую передачу данных между CPU и GPU.
Внутрисетевые вычисления обеспечивают обработку данных в сети, устраняя задержки при переходе к конечным точкам и на других этапах. Блоки обработки данных (DPU) обеспечивают программно-определяемые вычисления с аппаратным ускорением, включая предварительно настроенные и программируемые движки обработки данных.
Чтобы обеспечить оптимизации ввода-вывода для вычислений, сетей и СХД, пользователям необходима продвинутая телеметрия и технологии устранения неполадок. Платформы для управления Magnum IO позволяют администраторам научных и промышленных дата-центров эффективно управлять и обслуживать современные инфраструктуры.
Magnum IO взаимодействует с библиотеками CUDA-X для высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ) и ускоряет ввод-вывод широкого ряда задач: от ИИ до научной визуализации.
Сегодня data science и машинное обучение (ML) — это самые требовательные к вычислениям области. Даже небольшие улучшения точности моделей машинного обучения для прогнозирования могут в итоге сэкономить миллиарды долларов. Чтобы повысить точность, библиотека RAPIDS Accelerator оснащена встроенным ускорением Apache Spark на базе UCX, который можно настроить на коммуникацию между GPU и прямой доступ к памяти RDMA. Оснащенная сетевыми решениями NVIDIA, ПО Magnum IO, GPU-ускоренным Spark 3.0 и NVIDIA RAPIDS™ платформа NVIDIA для дата-центров призвана ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и энергоэффективность.
Adobe в 7 раз ускоряет тренировку моделей при помощи Spark 3.0 на базе Databricks и снижает затраты до 90%
Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные молекулы для создания лекарств, физические процессы — для поиска источников энергии и атмосферные данные — для разработки точных прогнозов экстремальных погодных условий. Magnum IO предоставляет движки для аппаратного ускорения и технологии интеллектуальной разгрузки, например RDMA, GPUDirect и NVIDIA SHARP, а также поддерживает высокую пропускную способность 400 Гбит/с и сверхнизкую задержку решений NVIDIA Quantum 2 InfiniBand.
При включении нескольких арендаторов (многоарендности) пользователи могут не осознавать нерегулируемое вмешательство трафика соседних приложений. Magnum IO на новой платформе NVIDIA Quantum 2 InfiniBand предлагает улучшенные возможности для уменьшения негативного воздействия на производительность. Это обеспечивает эффективные развертывания приложений для высокопроизводительных вычислений (HPC) и машинного обучения.
Largest Interactive Volume Visualization - 150TB NASA Mars Lander Simulation
Модели ИИ становятся все более сложными, так как разрабатываются для таких задач, как разговорный ИИ и рекомендательные системы на базе алгоритмов глубокого обучения. Для обучения таких моделей разговорного ИИ, как NVIDIA Megatron-BERT, требуется более чем в 3000 раз больше вычислительной мощности, чем для моделей классификации изображений, например ResNet-50. Чтобы ученые могли и дальше расширять границы возможного с помощью ИИ, им необходима высокая мощность и масштабируемость. Комбинация коммутаторов HDR 200Gb/s InfiniBand и программного стека Magnum IO обеспечивает достаточную масштабируемость для тысяч графических процессоров в одном кластере.
Тренировка алгоритмов глубокого обучения в дата-центрах проектирование масштабируемых систем
Подпишитесь на новостную рассылку.
Обеспечивает передачу данных непосредственно в память GPU, устраняя узкие места на пути данных через память процессора/системы. Исключает задержку при дополнительном копировании в системную память, что влияет на передачу небольших объемов данных и снижает нагрузку на процессор благодаря более независимой работе системы.
ПОДРОБНЕЕ ›
Читать блог: GPUDirect Storage: прямая магистраль между хранилищем и памятью GPU
Смотреть вебинар: NVIDIA GPUDirect Storage: ускорение передачи данных на GPU
Логически представляет собой СХД, например NVMe over Fabrics (NVMe-oF), выступает в качестве локального диска NVMe, и позволяет хост-системе ОС/гипервизору использовать стандартный диск NVMe вместо протокола удаленного сетевого хранилища.
Набор библиотек и оптимизированных драйверов NIC для быстрой обработки пакетов в пространстве пользователя, предоставляющий фреймворк и общий API для высокоскоростных сетевых приложений.
Открывает сетевому адаптеру прямой доступ к чтению или записи в буфер данных в одноранговых устройствах. Позволяет приложениям на основе RDMA использовать вычислительную мощность одноранговых устройств без копирования данных через память хоста.
Открытый фреймворк для ориентированных на данные и высокопроизводительных приложений. Содержит низкоуровневый интерфейс, который обеспечивает основные сетевые операции, поддерживаемые базовым оборудованием. Включает в себя библиотеки MPI и SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM и стандартные бенчмарки MPI.
Обеспечивает элементы коммуникации с учетом топологии путем плотной синхронизации взаимодействующих процессоров.
Содержит интерфейс параллельного программирования на базе стандарта OpenSHMEM, создающий глобальное адресное пространство для распределения памяти нескольких GPU на нескольких серверах.
Читать блог: Ускорение коллективных операций на базе Teams в NVSHMEM 2.0 с помощью NCCL
Открытый фреймворк для ориентированных на данные и высокопроизводительных приложений. Содержит низкоуровневый интерфейс, который обеспечивает основные сетевые операции, поддерживаемые базовым оборудованием. Также включает в себя высокоуровневый интерфейс для построения протоколов в библиотеках MPI, OpenSHMEM, PGAS, Spark и других приложениях для глубокого обучения и HPC.
The set of features that accelerate switch and packet processing. ASAP2 offloads data steering and security from the CPU into the network boosts efficiency, adds control, and isolates them from malicious applications.
LEARN MORE ›
DPU NVIDIA® BlueField® снимает с CPU важные задачи обеспечения сетей, безопасности и хранения и представляет собой лучшее решение для устранения проблем производительности, организации сетей и кибербезопасности в современном дата-центре.
Сокращает время обмена данными с MPI и оптимизирует совмещение вычислений и коммуникации. Используется адаптерами NVIDIA Mellanox InfiniBand для переноса обработки сообщений MPI с хост-машины на сетевые адаптеры и позволяет создать нулевую копию сообщений MPI.
Повышает производительность алгоритмов сокращения и агрегирования данных, таких как MPI, SHMEM, NCCL и других, за счет переноса нагрузки с GPU или CPU на сетевые коммутаторы и устраняет необходимости многократной передачи данных между конечными точками. Интеграция SHARP повышает производительность NCCL до 4 раз и в 7 раз снижает задержку для MPI.
Обеспечивает оркестрацию, подготовку, управление конфигурацией и задачами сетей, полную визуализацию работоспособности коммутатора, утилизацию трафика и управление решениями Ethernet.
Обеспечивает отладку, мониторинг, управление и эффективную подготовку соединения в дата-центре для InfiniBand. Поддержка телеметрии в реальном времени с помощью анализа киберугроз на базе ИИ и аналитики.