Apache Spark accelerato da GPU

Per progetti di analisi dei dati, machine learning, deep learning

Accelera i tuoi progetti di scienza dei dati su Apache Spark 3.0 con la GPU senza modificare il codicee accelera l'elaborazione dei dati e il training di modelli, abbattendo significativamente i costi di infrastruttura.

Perché Apache Spark?

Vantaggi principali di Spark su GPU NVIDIA

Tempi di esecuzione più rapidi

Tempi di esecuzione più rapidi

Accelera le prestazioni delle attività di preparazione dei dati per passare velocemente alla prossima fase del progetto. Questo consente di accelerare il training dei modelli, fornendo agli esperti e ingegneri la possibilità di concentrarsi sulle attività critiche.

Semplificazione del processo dall'analisi all'IA

Semplificazione del processo dall'analisi all'IA

Spark 3.0 organizza progetti completi, dall'integrazione dei dati, al training dei modelli, fino alla visualizzazione. La stessa infrastruttura accelerata da GPU può essere utilizzata sia per Spark sia per framework di ML/DL, eliminando la necessità di cluster separati e garantendo l'accesso all'accelerazione con GPU in tutte le fasi del progetto.

Riduzione dei costi dell'infrastruttura

Riduzione dei costi dell'infrastruttura

Più risultati con meno risorse: Spark su GPU NVIDIA® completa più velocemente i processi con meno risorse hardware rispetto all'uso della CPU, consentendo alle aziende di risparmiare tempo, investimenti e costi operativi grazie al cloud.

Innovazioni Spark 3.0

Data la natura terribilmente parallela di molte attività di elaborazione dei dati, non sorprende che occorra l'architettura di una GPU per le query di elaborazione dati di Spark, analogamente a come una GPU accelera i carichi di lavoro di DL in ambito IA. L'accelerazione GPU è trasparente per lo sviluppatore e non richiede modifiche al codice per ottenere questi vantaggi. Tre principali miglioramenti di Spark 3.0 hanno contribuito a garantire la trasparenza dell'accelerazione con GPU:

Nuovo acceleratore RAPIDS per Spark 3.0

Nvidia Cuda®è un'architettura rivoluzionaria di computing parallelo che supporta l'accelerazione delle operazioni di calcolo su architettura GPU NVIDIA. RAPIDS, integrato in NVIDIA, è una suite di librerie open source sovrapposte a CUDA che consente l'accelerazione dei progetti di scienza dei dati grazie alla GPU.

NVIDIA ha creato l'acceleratore RAPIDS per Spark 3.0, che intercetta e accelera i flussi ETL migliorando significativamente e prestazioni di Spark SQL e le operazioni DataFrame.

Modifications to Spark Components

Spark 3.0 provides columnar processing support in the Catalyst query optimizer which is what the RAPIDS Accelerator plugs into to accelerate SQL and DataFrame operators. When the query plan is executed, those operators can then be run on GPUs within the Spark cluster.

NVIDIA has also created a new Spark shuffle implementation that optimizes the data transfer between Spark processes. This shuffle implementation is built upon GPU-accelerated communication libraries, including UCX, RDMA, and NCCL.

GPU-Aware Scheduling in Spark

Spark 3.0 recognizes GPUs as a first-class resource along with CPU and system memory. This allows Spark 3.0 to place GPU-accelerated workloads directly onto servers containing the necessary GPU resources as they are needed to accelerate and complete a job.

NVIDIA engineers have contributed to this major Spark enhancement, enabling the launch of Spark applications on GPU resources in Spark standalone, YARN, and Kubernetes clusters.

Analisi accelerata e IA su Spark

Spark 3.0 segna un traguardo importante per l'analisi e l'IA, poiché le operazioni ETL sono ora accelerate mentre le applicazioni di ML e DL sfruttano la stessa infrastruttura GPU. Lo stack completo per questo flusso di scienza dei dati accelerato è mostrato sotto:

Analisi accelerata e IA su Spark

Introduzione a Spark accelerato da GPU

Se desideri accedere rapidamente all'acceleratore RAPIDS per la versione di anteprima di Apache Spark 3.0, consulta la documentazione di installazione qui o contatta il team Spark presso NVIDIA.

Adobe

Stiamo registrando un aumento enorme delle prestazioni con Spark 3.0 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per integrare funzionalità basate su IA in strumenti di marketing e analisi Adobe Experience Cloud integrati, leader di settore.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark 3.0 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco ha migliaia di clienti con distribuzioni di big data per i data lake costantemente alla ricerca di accelerare i carichi di lavoro. Apache Spark 3.0 introduce nuove funzionalità per accedere alle GPU NVIDIA in modo nativo, definendo quindi la nuova generazione di data lake accelerando AI/ML, ETL e altri carichi di lavoro. Cisco lavora in stretta collaborazione con NVIDIA per portare la nuova fase di innovazione del data lake ai clienti.

- Siva Sivakumar, Senior Director Data Center Solutions, Cisco

Adobe

Stiamo registrando un aumento enorme delle prestazioni con Spark 3.0 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per integrare funzionalità basate su IA in strumenti di marketing e analisi Adobe Experience Cloud integrati, leader di settore.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark 3.0 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco ha migliaia di clienti con distribuzioni di big data per i data lake costantemente alla ricerca di accelerare i carichi di lavoro. Apache Spark 3.0 introduce nuove funzionalità per accedere alle GPU NVIDIA in modo nativo, definendo quindi la nuova generazione di data lake accelerando AI/ML, ETL e altri carichi di lavoro. Cisco lavora in stretta collaborazione con NVIDIA per portare la nuova fase di innovazione del data lake ai clienti.

- Siva Sivakumar, Senior Director Data Center Solutions, Cisco

Adobe

Stiamo registrando un aumento enorme delle prestazioni con Spark 3.0 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per integrare funzionalità basate su IA in strumenti di marketing e analisi Adobe Experience Cloud integrati, leader di settore.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark 3.0 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco ha migliaia di clienti con distribuzioni di big data per i data lake costantemente alla ricerca di accelerare i carichi di lavoro. Apache Spark 3.0 introduce nuove funzionalità per accedere alle GPU NVIDIA in modo nativo, definendo quindi la nuova generazione di data lake accelerando AI/ML, ETL e altri carichi di lavoro. Cisco lavora in stretta collaborazione con NVIDIA per portare la nuova fase di innovazione del data lake ai clienti.

- Siva Sivakumar, Senior Director Data Center Solutions, Cisco

Scarica il nostro e-book gratuito

Vuoi sfruttare tutto il valore dei Big Data con la potenza dell'IA? Scarica il nuovo e-book, "Accelerating Apache Spark 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI" per saperne di più sulla nuova evoluzione di Apache Spark.