GPU 対応 Apache Spark

データ分析、機械学習、ディープラーニング パイプラインに対応

GPU を活用した Apache Spark 3.0 データ サイエンス パイプラインは—コードを変更することなく—インフラ費用を大幅に抑えて、データ処理とモデル トレーニングを高速化します。

Apache Spark を選ぶ理由

Spark 上で NVIDIA GPU を活用する主な利点

実行時間を短縮する

実行時間を短縮する

データ準備作業を短時間で終わらせるため、パイプラインの次の段階にすぐに進むことができます。これにより、モデルを短時間でトレーニングできるだけでなく、そういった作業から解放されたデータ サイエンティストやエンジニアは最も重要な活動に集中することができます。

分析から AI まで合理化

分析から AI まで合理化

Spark 3.0 では、データ取り込みからモデル トレーニングにビジュアライゼーションまで、エンドツーエンドのパイプラインを調整します。 同じ GPU 対応インフラストラクチャを Spark と ML/DL (ディープラーニング) フレームワークの両方で利用できるため、個別のクラスターが必要なくなり、パイプライン全体を GPU アクセラレーションに活用できます。

インフラ費用を削減

インフラ費用を削減

少ないリソースでより多くの成果: NVIDIA® GPU と Spark の組み合わせにより、CPU と比較してより少ないハードウェアでジョブをより速く完了できるため、組織は時間だけでなく、オンプレミスの資本コストやクラウドの運営コストも節約できます。

Spark 3.0 のイノベーション

多くのデータ処理タスクの性質が、徹底した並列処理であることを考えると、AI の DL ワークロードを GPU で高速化する方法と同様に、Spark のデータ処理クエリに GPU のアーキテクチャが活用されるのは当然です。GPU アクセラレーションは開発者にとって透過的であり、コードを変更しなくても利点が得られます。Spark 3.0 では次の 3 点が大きく進化しており、透過的な GPU アクセラレーションの実現を可能にしています。

Spark 3.0 の新しい RAPIDS アクセラレータ

NVIDIA CUDA®は、NVIDIA GPU アーキテクチャにおける演算処理を加速する革新的な並列計算処理アーキテクチャです。NVIDIA で開発された RAPIDS は、CUDA 上層で実装されるオープンソース ライブラリ スイートであり、データ サイエンス パイプラインの GPU 高速化を可能にします。

NVIDIA は、Spark SQL と DataFrame 演算のパフォーマンスを劇的に改善することで ETL パイプラインをインターセプトして高速化する Spark 3.0 の RAPIDS アクセラレータを開発しました。

Spark コンポーネントの変更点

Spark 3.0 では、SQL と DataFrame の演算子を高速化するために RAPIDS アクセラレータをプラグインするもので、Catalyst クエリ最適化のカラム型処理サポートを提供します。クエリ計画が実行されると、これらの演算子を Spark クラスター内の GPU で実行できます。

NVIDIA はまた、新たな Spark シャッフル実装を開発し、Spark プロセス間のデータ転送を最適化します。このシャッフル実装は、UCX、RDMA、NCCL など、GPU 対応通信ライブラリの上に構築されます。

Spark の GPU 対応スケジューリング

Spark 3.0 は GPU を、CPU やシステム メモリと共に、第一級のリソースとして認識します。それにより Spark 3.0 は、ジョブの高速化と遂行に GPU リソースが必要な場合、GPU リソースが含まれるサーバーを認識し GPU 対応のワークロードを投入します。

NVIDIA のエンジニアはこの主要な Spark の機能強化に貢献し、Spark スタンドアロン、YARN、Kubernetes クラスターの GPU リソースで Spark アプリケーションの起動を可能にしました。

Spark で加速する分析と AI

ML アプリケーションと DL アプリケーションで同じ GPU インフラストラクチャを活用する一方で ETL 演算が高速化されるため、Spark 3.0 は分析と AI の重要なマイルストーンとなります。このアクセラレーテッド データ サイエンス パイプラインの完全なスタックは以下のようになります。

Spark で加速する分析と AI

GPU アクセラレーテッド Spark を始める

Apache Spark 3.0 のプレビュー リリースのために RAPIDS Accelerator へ早期アクセスをご希望の場合は、NVIDIA Spark チームにお問合せください。

Adobe

NVIDIA 対応の Spark 3.0 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3.0 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

cisco

Cisco は、データ レイク向けにビッグ データを導入し、常にワークロードの高速化を求めている顧客をたくさん抱えています。Apache Spark 3.0 は NVIDIA GPU にネイティブ アクセスする新しい機能を提供し、AI/ML、ETL、その他のワークロードを加速する次世代データ レイクを定義します。Cisco は NVIDIA と緊密に連携し、この次世代データ レイク イノベーションを当社の顧客にもたらしています。

- Siva Sivakumar 氏、 Cisco社のデータ センター ソリューション部門シニア ディレター

Adobe

NVIDIA 対応の Spark 3.0 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3.0 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

cisco

Cisco は、データ レイク向けにビッグ データを導入し、常にワークロードの高速化を求めている顧客をたくさん抱えています。Apache Spark 3.0 は NVIDIA GPU にネイティブ アクセスする新しい機能を提供し、AI/ML、ETL、その他のワークロードを加速する次世代データ レイクを定義します。Cisco は NVIDIA と緊密に連携し、この次世代データ レイク イノベーションを当社の顧客にもたらしています。

- Siva Sivakumar 氏、 Cisco社のデータ センター ソリューション部門シニア ディレター

Adobe

NVIDIA 対応の Spark 3.0 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- William Yan 氏、Adobe社の機械学習部門シニア ディレクター

databricks

NVIDIA との継続的な協力により、Apache Spark 3.0 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Matei Zaharia 氏、Apache Spark の開発者兼 Databricks の主任技術者

cisco

Cisco は、データ レイク向けにビッグ データを導入し、常にワークロードの高速化を求めている顧客をたくさん抱えています。Apache Spark 3.0 は NVIDIA GPU にネイティブ アクセスする新しい機能を提供し、AI/ML、ETL、その他のワークロードを加速する次世代データ レイクを定義します。Cisco は NVIDIA と緊密に連携し、この次世代データ レイク イノベーションを当社の顧客にもたらしています。

- Siva Sivakumar 氏、 Cisco社のデータ センター ソリューション部門シニア ディレター

無料の eBook をダウンロードしてください

AI の力でビッグ データから価値を引き出す方法をお探しですか?NVIDIA の新しい eBook、「Accelerating Apache Spark 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI」 (Apache Spark 3.x の高速化 – NVIDIA GPU を活用して次世代の分析と AI にパワーをもたらす) をダウンロードしてください。Apache Spark の次の進化をご覧いただけます。