E-BOOK

Beschleunigung von Apache Spark 3.x

Mit NVIDIA-GPUs die nächste Stufe der Analytik und KI einläuten

GPU-accelerated libraries, DataFrame and APIs:

  • Layered on top of NVIDIA CUDA, RAPIDS is a suite of open-source software libraries and APIs that provide GPU parallelism and high-bandwidth memory speed through DataFrame and graph operations, achieving speedup factors of 50x or more on typical end-to-end data science workflows. For Spark 3.0, new RAPIDS APIs are used by Spark SQL and DataFrames for GPU accelerated memory efficient columnar data processing and query plans.
  • With Spark 3.0 the Catalyst query optimizer has been modified to identify operators within a query plan that can be accelerated with the RAPIDS API, and to schedule those operators on GPUs within the Spark cluster, when executing the query plan.
  • A new Spark shuffle implementation, built upon GPU accelerated communication libraries including Remote direct memory access (RDMA), dramatically reduces the data transfer among Spark processes. RDMA allows GPUs to communicate directly with each other, across nodes, at up to 100Gb/s, operating as if on one massive server.


GPU-aware Scheduling in Spark

  • Spark 3.0 adds integration with the cluster managers (YARN, Kubernetes, and Standalone) to request GPUs, and plugin points to allow it to be extended to run operations on the GPU. This makes GPUs easier to request and use for Spark application developers, allows for closer integration with deep learning and AI frameworks such as Horovod and TensorFlow on Spark, and allows for better utilization of GPUs.

 

Apache Spark ist ein leistungsstarkes Ausführungsmodul für umfangreiche parallele Datenverarbeitung in einem Cluster von Maschinen, das eine schnelle Anwendungsentwicklung und hohe Leistung ermöglicht. Durch die großen Verbesserungen kann mit Spark 3.0 die massiv-parallele Architektur von GPUs zur weiteren Beschleunigung der Spark-Datenverarbeitung verwendet werden.

Erfahren Sie mehr über:

  • Die Entwicklung der Datenverarbeitung, von Hadoop über Grafikprozessoren bis hin zur NVIDIA RAPIDS™-Bibliothek
  • Spark: Was es ist, was es tut und warum es wichtig ist
  • GPU-Beschleunigung in Spark
  • DataFrames und Spark SQL
  • Ein Beispiel für Spark-Regression mit Random Forest-Klassifikationsverfahren
  • Ein Beispiel zu lückenlosem Workflow für maschinelles Lernen mit XGBoost-Grafikprozessorbeschleunigung

Füllen Sie das nachstehende Formular aus, um dieses E-Book vorzubestellen, und Sie erhalten es am Montag, dem 18. Mai, direkt in Ihren Posteingang.

spark-e-book-thumb

E-Book jetzt vorbestellen

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen zu Unternehmenslösungen von NVIDIA erhalten. Eine Abmeldung ist jederzeit möglich.