オープンソース コミュニティが、NVIDIA GPU をネイティブサポートして Spark 3.0 を高速化、数百テラバイトのデータの ETL および SQL を超高速処理、Adobe が Databricks で Spark 3.0 を使い、モデル トレーニングで 7 倍のスピードアップを達成。
2020 年 5 月 14 日、カリフォルニア州サンタクララ - GTC 2020 - NVIDIA は本日、オープンソース コミュニティと連携し、全世界の 50 万人以上のデータ サイエンティストが使用している、ビッグデータ処理のための分析エンジンである Apache Spark 3.0 に、エンドツーエンドの GPU アクセラレーションを提供することを発表しました。
晩春にリリースが予定されている Spark 3.0 にて、データ サイエンティストや機械学習エンジニアは、SQL データベース操作を通じて広く行われている、ETL (抽出、変換、ロード) データ処理ワークロードに革新的な GPU アクセラレーションを初めて適用できるようになります。
また、ワークロードを別々のインフラストラクチャ上で別々のプロセスとして実行するのではなく、AI モデルのトレーニングを同じ Spark クラスタ上で処理できるようになります。これにより、データ サイエンス パイプライン全体で高性能なデータ分析が可能になり、オンプレミスやクラウドで実行されている Spark アプリケーションに使われている既存のコードを変更することなく、データ レイクからモデル学習までの数十から数千テラバイトのデータを高速処理できるようになります。
NVIDIA のエンタープライズ コンピューティング ヘッドのマヌバー ダス (Manuvir Das) は、次のように述べています。「データ アナリティクスは、現在のエンタープライズや研究者が直面している、ハイパフォーマンス コンピューティングにおける最大の課題です。ETL から学習、推論に至るまで、Spark 3.0 のパイプライン全体のネイティブな GPU アクセラレーションによって、ビッグデータの可能性と AI のパワーを最終的に結びつけるのに必要な性能とスケールを得られるようになります」
NVIDIA との戦略的 AI パートナーシップを結んでいる Adobe は、Databricks 上で動作する Spark 3.0 のプレビュー リリースを実際に使用した、最初の企業の 1 つにです。同社は、Adobe Experience Cloud での製品開発やデジタル ビジネスを強力にする機能のサポートのために、GPU で高速化されたデータ分析を使用し、初期テストで 7 倍の性能向上と 90% の費用削減を達成しました。
Spark 3.0 の性能向上により、科学者はより大規模なデータセットでモデルの学習を行えるだけでなく、より頻繁にモデルの再学習もできるようになるため、モデルの精度を引き上げることができます。これにより、毎日テラバイト単位の新しいデータを処理できるようになり、オンライン レコメンデーション システムをサポートしたり、新しい研究データを分析したりするデータ サイエンティストにとって、きわめて重要な意味を持ちます。さらに、処理が高速化されることで、結果を出すために必要とされるハードウェア リソースが減り、大幅な費用削減が可能になります。
Adobe の機械学習担当シニアディレクターのウィリアム ヤン (William Yan) 氏は、次のように述べています。「NVIDIA のテクノロジで高速化された Spark 3.0 により、CPU で Spark を実行していたときと比べて性能が大幅に向上しています。このような革新的な GPU による処理能力の向上により、すべての Adobe Experience Cloud アプリケーションで AI を活用した機能を強化するための、まったく新しい可能性が生まれています」
Databricks と NVIDIA がもたらす、Spark のスピード向上 Apache Spark は元々 Databricks の創業者が生み出したもので、このクラウドベースの統合データ分析プラットフォームは、毎日 100 万台以上の仮想マシンで使用されています。NVIDIA と Databricks は、Databricks 向けのソフトウェア スイートであるRAPIDS™ で Spark を最適化するための取り組みを通じて、ヘルスケアや金融、小売りおよびその他の多くの業界で Databricks 上で実行されている、データ サイエンスと機械学習のワークロードに GPU アクセラレーションを提供しています。
Apache Spark のオリジナル クリエイターであり、Databricks のチーフテクノロジストであるマテイ ザハリア (Matei Zaharia) 氏は、次のように述べています。「NVIDIA との継続的な取り組みにより、Apache Spark 3.0 および Databricks の RAPIDS による最適化によって性能が向上し、Adobe のような両社共通のお客様に利益をもたらしています。このような成果が、より高速なデータ パイプライン、モデルの学習やスコアリングにつながり、データ エンジニアやデータ サイエンティストのコミュニティの多くのブレイクスルーと洞察に直結します。」
NVIDIA GPU による Spark での ETL とデータ転送の高速化 NVIDIA は、新しいオープンソースのRAPIDS Accelerator for Apache Spark を通じて、データ サイエンティストがエンドツーエンドからパイプラインの性能を向上させるのを支援しています。このアクセラレーターは、これまで CPU で実行されていた機能を遮断し、その代わりに GPU を活用して以下のような利益をもたらします。
Spark 3.0 のプレビュー リリースは、Apache Software Foundation を通じて、現在入手可能となっており、一般提供は数か月後の予定です。詳しい情報は、www.nvidia.com/sparkをご覧ください。
NVIDIA について 1999 年における NVIDIA (NASDAQ 表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックスを再定義し、並列コンピューティングに革命的変化を起こしました。最近では、GPU ディープラーニングが最新の AI (次世代コンピューティング) に火をつけ、世界を知覚し理解することができるコンピューター、ロボット、自律走行車の脳として GPU は機能しています。詳細は、こちらのリンクから: www.nvidia.com/ja-jp/
NVIDIA とオープンソース コミュニティが連携し、Apache Spark を加速すること、Spark 3.0 のリリースが予想されていることとSQL データベース操作を通じて実施されている ETL データ処理ワークロードで GPU アクセラレーションが可能になること、AI モデルの学習をSpark クラスタで処理できるようになり、高性能のデータ アナリティクスが可能になること、Spark 3.0 向けの GPU アクセラレーションを含む NVIDIA の製品およびテクノロジの利益、性能および能力、データ アナリティクスがハイパフォーマンス コンピューティングにおける最大の課題であることおよび Spark 3.0 のパイプラインでのネイティブな GPU アクセラレーションによりビッグデータと AI を結びつけるのに必要な性能とスケールを得られるようになること、RAPIDS 等の Databricks 上で実行される Spark 3.0 における Adobe との協業の性能および利益、Spark 3.0 により、科学者が大規模なデータセットでモデルの学習を行えるだけでなく、より頻繁にモデルの再学習を行い、テラバイト単位のデータの処理をし、結果を出すために必要とされるハードウェア リソースを減らして費用削減が可能になること、NVIDIA のテクノロジで加速された Spark 3.0 によるAdobe Experience Cloud アプリケーションで AI を活用した機能が新しい可能性を生み出すこと、Apache Spark のためのオープンソース RAPIDS アクセラレーターに NVIDIA が貢献することの利益および性能、および Spark 3.0 の可用性など、本プレスリリースにおける一定の記載は将来の見通しに関する記述であり、予測とは著しく異なる結果を生ずる可能性があるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、当社 製品やパートナー企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザーの嗜好および需要の変化、業界標準やインターフェイスの変更、システム統合時に当社製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関して は、Form 10-K での NVIDIA のアニュアル レポートならびに Form 10-Q での四半期レポートなど、米証券取引委員会 (SEC) に提出されている NVIDIA の報告書に適宜記載されます。SEC への提出書類は写しが NVIDIA の Web サイトに掲載されており、NVIDIA から無償で入手すること ができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある 場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務を NVIDIA は一切負いません。
© 2020 NVIDIA Corporation. All rights reserved. NVIDIA、NVIDIA のロゴおよび RAPIDS は、米国およびその他の国における NVIDIA Corporation の商標または登録商標です。その他の会社名および製品名は、それぞれの所有企業の商標または登録商標である可能性があります。機能、価格、可用性、および仕様は予告なしに変更されることがあります。