Apache Spark mit GPU-Beschleunigung

Für Datenanalysen, maschinelles Lernen und Deep-Learning-Pipelines

Mit GPU-Beschleunigung für Pipelines für Datenwissenschaft in Apache Spark 3.0 – die ohne Codeänderungen möglich ist – können Sie Datenverarbeitung und Modelltraining beschleunigen und gleichzeitig die Infrastrukturkosten deutlich senken.

Warum Apache Spark?

Die wichtigsten Vorteile von Spark auf NVIDIA-Grafikprozessoren

Kürzere Verarbeitungszeiten

Kürzere Verarbeitungszeiten

Beschleunigen Sie die Durchführung von Datenvorbereitungsaufgaben, um schnell in die nächste Phase der Pipeline zu wechseln. Dadurch können Modelle schneller trainiert werden, während sich Datenwissenschaftler und Ingenieure auf die wichtigsten Aktivitäten konzentrieren können.

Den Weg von Analyse zu KI optimieren

Den Weg von Analyse zu KI optimieren

Spark 3.0 orchestriert End-to-End-Pipelines von der Datenaufnahme über das Modelltraining bis hin zur Visualisierung. Dieselbe GPU-beschleunigte Infrastruktur kann sowohl für Spark als auch für ML/DL(Deep Learning)-Frameworks verwendet werden, sodass kein Bedarf an separaten Clustern mehr besteht und die gesamte Pipeline Zugriff auf die Grafikprozessorbeschleunigung erhält.

Reduzierte Infrastrukturkosten

Reduzierte Infrastrukturkosten

Mit weniger mehr erreichen: Im Vergleich zu CPUs schließt Spark auf NVIDIA®-Grafikprozessoren Aufgaben mit weniger Hardware schneller ab, wodurch Unternehmen sowohl Zeit als auch lokale Kapitalkosten oder Betriebskosten in der Cloud sparen.

Spark 3.0-Innovationen

Angesichts der „peinlich parallelen“ Beschaffenheit vieler Datenverarbeitungsaufgaben ist es nur natürlich, dass die Architektur einer GPU für Spark-Datenverarbeitungsabfragen genutzt werden sollte, ähnlich wie ein Grafikprozessor DL-Workloads für KI beschleunigt. Die GPU-Beschleunigung ist für den Entwickler transparent und erfordert keine Codeänderungen, um diese Vorteile zu erhalten. Drei wichtige Weiterentwicklungen in Spark 3.0 haben zur Bereitstellung transparenter GPU-Beschleunigung beigetragen:

Neuer RAPIDS-Beschleuniger für Spark 3.0

NVIDIA CUDA®ist eine revolutionäre parallele Prozessorarchitektur, die beschleunigte Rechenoperationen auf der NVIDIA GPU-Architektur unterstützt. Bei RAPIDS, das bei NVIDIA entwickelt wurde, handelt es sich um eine Suite von Open-Source-Bibliotheken, die auf CUDA aufsetzen und die GPU-Beschleunigung von Datenwissenschaftspipelines ermöglichen.

NVIDIA hat einen RAPIDS-Beschleuniger für Spark 3.0 entwickelt, der ETL-Pipelines abfängt und beschleunigt, indem er die Leistung von Spark SQL- und DataFrame-Operationen erheblich verbessert.

Änderungen an Spark-Komponenten

Spark 3.0 bietet Unterstützung für spaltenorientierte Verarbeitung im Catalyst Query Optimizer, wo der RAPIDS-Beschleuniger ansetzt, um SQL- und DataFrame-Operatoren zu beschleunigen. Wenn der Abfrageplan ausgeführt wird, können diese Operatoren auf GPUs innerhalb des Spark-Clusters ausgeführt werden.

NVIDIA hat außerdem eine neue Spark Shuffle-Implementierung entwickelt, die den Datentransfer zwischen den Spark-Prozessen optimiert. Diese Shuffle-Implementierung basiert auf GPU-beschleunigten Kommunikationsbibliotheken, einschließlich UCX, RDMA und NCCL.

GPU-fähige Planung in Spark

Spark 3.0 erkennt GPUs als eine erstklassige Ressource zusammen mit CPU und Systemspeicher. Dadurch kann Spark 3.0 GPU-beschleunigte Workloads direkt auf Servern mit den erforderlichen GPU-Ressourcen platzieren, je nachdem, wie sie für die Beschleunigung und Ausführung eines Auftrags benötigt werden.

NVIDIA-Techniker haben zu dieser wichtigen Spark-Verbesserung beigetragen, die die Einführung von Spark-Anwendungen auf GPU-Ressourcen in Spark Standalone, YARN und Kubernetes-Clustern ermöglicht.

Beschleunigte Analysen und KI auf Spark

Spark 3.0 ist ein bedeutender Meilenstein für Analysen und KI, da ETL-Operationen jetzt beschleunigt werden, während ML- und DL-Anwendungen dieselbe GPU-Infrastruktur nutzen. Das gesamte Zusatzpaket für diese beschleunigte Datenwissenschafts-Pipeline ist unten dargestellt:

Beschleunigte Analysen und KI auf Spark

Erste Schritte mit dem GPU-beschleunigten Spark

Wenn Sie am Early Access für den RAPIDS-Beschleuniger für die Preview-Version von Apache Spark 3.0 teilnehmen möchten, wenden Sie sich bitte an das Spark-Team bei NVIDIA. 

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3.0 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unsere branchenführenden integrierten Marketing- und Analysetools in Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark 3.0 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco hat Tausende von Kunden mit umfangreichen Datenbereitstellungen für unterschiedliche Data Lakes, die ständig ihre Workloads beschleunigen möchten. Apache Spark 3.0 verfügt über neuere Funktionen für den nativen Zugriff auf NVIDIA-Grafikprozessoren und markiert damit die nächste Generation von Data Lakes, die KI/ML, ETL und andere Workloads beschleunigen. Cisco arbeitet eng mit NVIDIA zusammen, um die nächste Phase der Innovationen im Bereich Data Lakes für unsere Kunden zu ermöglichen.

-Shiva Sivakumar, Senior Director Data Center Solutions, Cisco

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3.0 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unsere branchenführenden integrierten Marketing- und Analysetools in Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark 3.0 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco hat Tausende von Kunden mit umfangreichen Datenbereitstellungen für unterschiedliche Data Lakes, die ständig ihre Workloads beschleunigen möchten. Apache Spark 3.0 verfügt über neuere Funktionen für den nativen Zugriff auf NVIDIA-Grafikprozessoren und markiert damit die nächste Generation von Data Lakes, die KI/ML, ETL und andere Workloads beschleunigen. Cisco arbeitet eng mit NVIDIA zusammen, um die nächste Phase der Innovationen im Bereich Data Lakes für unsere Kunden zu ermöglichen.

-Shiva Sivakumar, Senior Director Data Center Solutions, Cisco

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3.0 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unsere branchenführenden integrierten Marketing- und Analysetools in Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark 3.0 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco hat Tausende von Kunden mit umfangreichen Datenbereitstellungen für unterschiedliche Data Lakes, die ständig ihre Workloads beschleunigen möchten. Apache Spark 3.0 verfügt über neuere Funktionen für den nativen Zugriff auf NVIDIA-Grafikprozessoren und markiert damit die nächste Generation von Data Lakes, die KI/ML, ETL und andere Workloads beschleunigen. Cisco arbeitet eng mit NVIDIA zusammen, um die nächste Phase der Innovationen im Bereich Data Lakes für unsere Kunden zu ermöglichen.

-Shiva Sivakumar, Senior Director Data Center Solutions, Cisco

Kostenloses E-Book herunterladen

Wollen Sie den Wert von Big Data mit der Kraft der KI erschließen? Laden Sie unser neues E-Book „Apache Spark 3.x beschleunigen – NVIDIA-Grafikprozessoren für die nächste Ära von Analysen und KI nutzen“ herunter, um mehr über die nächste Evolutionsstufe bei Apache Spark zu erfahren.