NVIDIA Magnum IO

適用現代 GPU 加速資料中心的 IO 子系統

將資料中心儲存空間和網路 IO 效能 發揮到極致

全新的運算器是資料中心,而其核心則是 NVIDIA GPU 和 NVIDIA 網路。加速運算需要加速輸入/輸出 (IO) 以將效能發揮到極致。現代資料中心的 IO 子系統 NVIDIA Magnum IO™ 是適用於平行、非同步和智慧資料中心 IO 的架構,可將多 GPU、多節點加速的儲存空間和網路 IO 效能發揮到極致。

Magnum IO 主要優點

最佳化 IO 效能

繞過 CPU,在 GPU 記憶體、網路和儲存空間啟用直接 IO,將頻寬提升 10 倍。

系統平衡與使用率

可減緩 CPU 爭用問題來建立更平衡的 GPU 加速系統,提供最高 IO 頻寬,因此可讓 CPU 核心的數量少 10 倍,並讓 CPU 使用率降低 30 倍。

無阻礙的整合

無論資料傳輸是縝密又延遲敏感、粗疏又頻寬敏感或集體,都能為目前和未來的平台提供最佳化實作。

Magnum IO 最佳化堆疊

Magnum IO 運用儲存空間 IO、網路 IO、網路內運算和 IO 管理,簡化並加速多 GPU、多節點系統的資料活動、存取和管理。Magnum IO 支援 NVIDIA CUDA-X™ 函式庫,並充分運用一系列的 NVIDIA GPU 和 NVIDIA 網路硬體拓撲,可達到最佳輸送量和低延遲度。

 [Developer Blog] Magnum IO - 加速現代資料中心 IO 效能

Magnum IO Optimization Stack

儲存空間 IO

在多節點、多 GPU 系統、緩慢的 CPU 中,單一執行緒效能位於本機或遠端儲存裝置的資料存取關鍵路徑。GPU 藉由儲存空間 IO 加速,可繞過 CPU 和系統記憶體,並透過 8 個每秒 200 GB 的 NIC 存取遠端儲存空間,進而達到最高每秒 1.6 兆位元的原始儲存空間頻寬。

採用技術:

網路 IO

NVIDIA NVLink® 網狀架構與 RDMA 網路 IO 加速可降低 IO 額外負荷、繞過 CPU,並以線路速率啟用 GPU 之間的直接資料傳輸。

採用技術:

網路內運算

網路內運算可在網路內進行處理,進而消除傳輸至端點時導致的延遲,以及過程中的躍點。資料處理器 (DPU) 可導入軟體定義的網路硬體加速運算,包括預先設定的資料處理引擎和可程控引擎。

採用技術:

IO 管理

若要實現運算、網路和儲存空間的 IO 最佳化,使用者需要先進遙測技術和深度疑難排解技術。Magnum IO 管理平台讓研究和產業資料中心運算子能夠有效率地佈建、監控、管理和預防性維護現代資料中心的網狀架構。

採用技術

加速跨應用程式的 IO

採用 NVIDIA CUDA-X 高效能運算 (HPC) 與人工智慧 (AI) 函式庫的 Magnum IO 介面,可加速從人工智慧到科學視覺化等多種使用案例的 IO。

  • 資料分析
  • 高效能運算功能
  • 深度學習
資料分析

資料分析

資料科學與機器學習 (ML) 現在已成為全球最大的運算領域。適度改善預測機器學習模型的準確度可帶來數十億美元的利潤。為了提升精確度,RAPIDS 加速器函式庫搭載以可設定的 UCX 為基礎的內建加速 Apache Spark 隨機功能,進而運用 GPU 到 GPU 通訊和 RDMA 功能。NVIDIA 資料中心平台具有獨特定位,可與 NVIDIA 網路、Magnum IO 軟體、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™ 搭配使用,進而以前所未有的效能和效率水準加速這些龐大工作負載。

 Adobe 可將 Databricks 上 Spark 3.0 模型訓練的速度提升 7 倍,節省 90% 的成本

 TPCx-BB 效能加速 19.5 倍,且 UCX 和 NVIDIA RAPIDS™ 資料科學軟體在 NVIDIA DGX™ A100 上獲得提升

高效能運算

高效能運算

高效能運算是現代科技的重要支柱。為了找出更新的發現,科學家仰賴模擬來進一步瞭解藥物開發的複雜分子、透過物理來尋找潛在的新能源,以及瞭解大氣資料以更準確預測天氣,並為極端天氣做好準備。Magnum IO 展現硬體級的加速引擎和智慧卸載,如 RDMA、NVIDIA GPUDirect®以及 NVIDIA 可擴充的分層彙總和降低協定 (SHARP)™ 功能,同時支援高頻寬和每秒 200 GB HDR InfiniBand 的超低延遲。不論規模皆可提供最高效能、最高效率的高效能運算與機器學習部署。

最大型的互動式立體視覺化:150 TB NASA 火星探測器模擬

深度學習

深度學習

人工智慧模型的複雜度,隨著處理難度更高的挑戰將持續增長,如對話式人工智慧和深度推薦系統等。像 NVIDIA Megatron-BERT 這樣的對話式人工智慧模型,與 ResNet-50 等影像分類模型相比,需要耗費多 3000 倍的運算效能來訓練。為了讓研究人員能夠繼續挑戰人工智慧的能力極限,會需要強大的效能和巨大的擴充能力。每秒 200 GB 的 HDR InfiniBand 網路與 Magnum IO 軟體堆疊的結合,可在單一叢集中提供數千個 GPU 的高效率擴充能力。

Facebook 資料中心的深度學習訓練:垂直擴充與水平擴充系統的設計

訂閱已獲得最新消息