GPU 対応 Apache Spark

データ分析、機械学習、ディープラーニング パイプラインに対応

GPU を活用した Apache Spark 3 データ サイエンス パイプラインは—コードを変更することなく—インフラ費用を大幅に抑えて、データ処理とモデル トレーニングを高速化します。

 

Spark 上で NVIDIA GPU を活用する主な利点

Faster Execution Time

実行時間を短縮する

データ準備作業を短時間で終わらせるため、パイプラインの次の段階にすぐに進むことができます。これにより、モデルを短時間でトレーニングできるだけでなく、そういった作業から解放されたデータ サイエンティストやエンジニアは最も重要な活動に集中することができます。

Streamline Analytics to AI

分析から AI まで合理化

Spark 3 では、データ取り込みからモデル トレーニングにビジュアライゼーションまで、エンドツーエンドのパイプラインを調整します。 同じ GPU 対応インフラストラクチャを Spark と ML/DL (ディープラーニング) フレームワークの両方で利用できるため、個別のクラスターが必要なくなり、パイプライン全体を GPU アクセラレーションに活用できます。

Reduced Infrastructure Costs

インフラ費用を削減

少ないリソースでより多くの成果: NVIDIA® GPU と Spark の組み合わせにより、CPU と比較してより少ないハードウェアでジョブをより速く完了できるため、組織は時間だけでなく、オンプレミスの資本コストやクラウドの運営コストも節約できます。

Upfront Insights

先行分析情報

インテリジェントなワークロード最適化ツールを使用して、GPU アクセラレーションに適した Apache Spark ワークロードのコスト上の利点を確認、評価してください。このツールは、コスト削減とパフォーマンスのために最適化された GPU パラメーターを推奨します。

ワークショップ

Spark ワークロード Rip を見る

GPU で Spark ジョブを高速化しませんか? 無料のワークショップに登録し、ワークロードを評価しましょう。

Spark 3 のイノベーション

多くのデータ処理タスクの性質が、徹底した並列処理であることを考えると、AI の DL ワークロードを GPU で高速化する方法と同様に、Spark のデータ処理クエリに GPU のアーキテクチャが活用されるのは当然です。GPU アクセラレーションは開発者にとって透過的であり、コードを変更しなくても利点が得られます。Spark 3 では次の 3 点が大きく進化しており、透過的な GPU アクセラレーションの実現を可能にしています。

Spark 3 の新しい RAPIDS アクセラレータ

NVIDIA CUDA®は、NVIDIA GPU アーキテクチャにおける演算処理を加速する革新的な並列計算処理アーキテクチャです。NVIDIA で開発された RAPIDS は、CUDA 上層で実装されるオープンソース ライブラリ スイートであり、データ サイエンス パイプラインの GPU 高速化を可能にします。

NVIDIA は、Spark SQL と DataFrame 演算のパフォーマンスを劇的に改善することで ETL パイプラインをインターセプトして高速化する Spark 3 の RAPIDS アクセラレータを開発しました。

Spark コンポーネントの変更点

Spark 3 では、SQL と DataFrame の演算子を高速化するために RAPIDS アクセラレータをプラグインするもので、Catalyst クエリ最適化のカラム型処理サポートを提供します。クエリ計画が実行されると、これらの演算子を Spark クラスター内の GPU で実行できます。

NVIDIA はまた、新たな Spark シャッフル実装を開発し、Spark プロセス間のデータ転送を最適化します。このシャッフル実装は、UCX、RDMA、NCCL など、GPU 対応通信ライブラリの上に構築されます。

Spark の GPU 対応スケジューリング

Spark 3 は GPU を、CPU やシステム メモリと共に、第一級のリソースとして認識します。それにより Spark 3 は、ジョブの高速化と遂行に GPU リソースが必要な場合、GPU リソースが含まれるサーバーを認識し GPU 対応のワークロードを投入します。

NVIDIA のエンジニアはこの主要な Spark の機能強化に貢献し、Spark スタンドアロン、YARN、Kubernetes クラスターの GPU リソースで Spark アプリケーションの起動を可能にしました。

deep-learning-apache-spark-3-innovations-refactored

Spark で加速する分析と AI

ML アプリケーションと DL アプリケーションで同じ GPU インフラストラクチャを活用する一方で ETL 演算が高速化されるため、Spark 3 は分析と AI の重要なマイルストーンとなります。このアクセラレーテッド データ サイエンス パイプラインの完全なスタックは以下のようになります。

Spark で加速する分析と AI

GPU 対応 Spark を始める

RAPIDS Accelerator for Spark 3 をダウンロードして、Apache Spark データ サイエンス パイプラインを GPU で加速しましょう。お客様は、こちらの GitHub から NVIDIA Spark チームに問い合わせることもできます。

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

– IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

- IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

- IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

無料の eBook をダウンロードしてください

AI の力でビッグ データから価値を引き出す方法をお探しですか?NVIDIA の新しい eBook、「Accelerating Apache Spark 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI」 (Apache Spark 3.x の高速化 – NVIDIA GPU を活用して次世代の分析と AI にパワーをもたらす) をダウンロードしてください。Apache Spark の次の進化をご覧いただけます。