GPU 加速的 Apache Spark

資料分析、機器學習和深度學習流程專用

無需變更程式碼,即可使用 GPU 加速 Apache Spark 3.0 資料科學流程,幫助你加速資料處理和模型訓練,並大幅降低基礎架構成本。

為什麼選擇 Apache Spark?

採用 NVIDIA GPU 的 Spark 的主要優勢

縮短執行時間

縮短執行時間

提高資料準備工作效能,以更快進入流程的下一階段。不只能夠提升模型訓練速度,也讓資料科學家與工程師得以專注在最重要的活動上。

簡化人工智慧分析技術

簡化人工智慧分析技術

Spark 3.0 可以編排各種端對端流程,包括資料擷取、模型訓練到視覺化。 相同的 GPU 加速基礎架構可用於 Spark 和 ML/DL (深度學習) 框架,免除使用不同叢集的需求,讓整個流程都能存取 GPU 加速功能。

降低基礎架構成本

降低基礎架構成本

以更少的成本完成更多工作:在 NVIDIA® GPU 上使用 Spark 加速完成工作,與使用 CPU 相比,耗費的硬體資源較少,為組織節省時間以及本機資本成本或雲端營運成本。

Spark 3.0 創新技術

由於許多資料處理工作具備「不易平行」的特性,因此針對 Spark 資料處理需求使用 GPU 架構是理所當然的事,此與使用 GPU 加速人工智慧 DL 工作負載類似。開發人員可掌握 GPU 加速的細節,而且不需變更程式碼即可獲得這些優勢。Spark 3.0 的三項重大技術進展對於讓 GPU 加速變得淺顯易懂貢獻良多:

適用於 Spark 3.0 的全新 RAPIDS 加速器

NVIDIA CUDA® 是一種革命性的平行運算架構,可支援 NVIDIA GPU 架構上的加速運算作業。NVIDIA 開發的 RAPIDS 是建立在 CUDA 之上的一組開放原始碼函式庫,可以讓你在資料科學流程中使用 GPU 加速功能。

NVIDIA 為 Spark 3.0 建立了 RAPIDS 加速器,能藉由大幅提高 Spark SQL 與 DataFrame 作業的效能來攔截和加速 ETL 流程。

修改 Spark 元件

Spark 3.0 為 Catalyst 需求最佳化工具提供欄式處理支援,這正是 RAPIDS 加速器為了加速 SQL 與 DataFrame 運算所採用的功能。執行需求計畫時,就可以透過 Spark 叢集中的 GPU 執行這些運算。

NVIDIA 也建立了新的 Spark 隨機實作,將 Spark 處理序之間的資料傳輸作業最佳化。此隨機實作構建在 GPU 加速的通訊函式庫 (包含 UCX、RDMA 和 NCCL) 基礎上。

Spark 中的 GPU-Aware 排程

Spark 3.0 將 GPU 視為首要資源 接著才是 CPU 和系統記憶體。這讓 Spark 3.0 可以將 GPU 加速的工作負載直接放在包含必要 GPU 資源的伺服器上,因為這些資源是加速和完成工作所必需。

NVIDIA 工程師也協助開發這項重大的 Spark 增強功能,讓 Spark 應用程式可以透過 Spark 單機版、YARN 和 Kubernetes 叢集中的 GPU 資源啟動。

Spark 上的加速分析和人工智慧技術

Spark 3.0 代表分析和人工智慧技術的重要里程碑,現在已可加速 ETL 作業,並讓 ML 和 DL 應用使用相同的 GPU 基礎架構。此加速資料科學流程的完整堆疊如下所示:

Spark 上的加速分析和人工智慧技術

取得 GPU 加速的 Spark

如果您有興趣提早使用 RAPIDS 加速器來瞭解 Apache Spark 3.0 預覽版,請參考 安裝文件 或與 NVIDIA Spark 團隊聯繫。

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3.0 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark 3.0 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark 原創作者及 Databricks 技術長 Matei Zaharia

cisco

Cisco 有數以千計的客戶為其資料湖採用巨量資料部署,而這些客戶也不斷地尋找加速工作負載的方式。Apache Spark 3.0 提供更新穎的功能透過原生方式存取 NVIDIA GPU,定義了可加速 AI/ML、ETL 和其他工作負載的新一代資料湖。Cisco 正與 NVIDIA 密切合作,為客戶帶來下一階段的資料湖技術創新。

- Cisco資料中心解決方案資深總監 Siva Sivakumar

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3.0 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark 3.0 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark 原創作者及 Databricks 技術長 Matei Zaharia

cisco

Cisco 有數以千計的客戶為其資料湖採用巨量資料部署,而這些客戶也不斷地尋找加速工作負載的方式。Apache Spark 3.0 提供更新穎的功能透過原生方式存取 NVIDIA GPU,定義了可加速 AI/ML、ETL 和其他工作負載的新一代資料湖。Cisco 正與 NVIDIA 密切合作,為客戶帶來下一階段的資料湖技術創新。

- Cisco資料中心解決方案資深總監 Siva Sivakumar

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3.0 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark 3.0 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark 原創作者及 Databricks 技術長 Matei Zaharia

cisco

Cisco 有數以千計的客戶為其資料湖採用巨量資料部署,而這些客戶也不斷地尋找加速工作負載的方式。Apache Spark 3.0 提供更新穎的功能透過原生方式存取 NVIDIA GPU,定義了可加速 AI/ML、ETL 和其他工作負載的新一代資料湖。Cisco 正與 NVIDIA 密切合作,為客戶帶來下一階段的資料湖技術創新。

- Cisco資料中心解決方案資深總監 Siva Sivakumar

免費下載電子書

你想藉助人工智慧的強大功能發揮巨量資料的價值嗎?請下載我們全新的電子書,《Accelerating Apache Spark 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI 》,深入瞭解 Apache Spark 未來的發展。