Accélération GPU d’Apache Spark

Optimisez vos pipelines d'analyse de données, d’apprentissage automatique et de Deep Learning

L'accélération GPU vous permet d'optimiser vos pipelines de science des données avec Apache Spark 3.0 - sans la moindre modification de code - mais aussi le traitement des données et l’entraînement des modèles, tout en réduisant vos coûts d’infrastructure.

Pourquoi choisir Apache Spark ?

Principaux avantages de Spark sur les GPU NVIDIA

Accélération des délais de traitement

Accélération des délais de traitement

Accélérez les performances des tâches de préparation des données pour passer rapidement à l’étape suivante du pipeline. Cette innovation autorise un entraînement plus rapide de vos modèles tout en permettant à vos ingénieurs et chercheurs de se focaliser sur les activités les plus importantes.

De l’analyse de données aux applications d’IA

De l’analyse de données aux applications d’IA

Spark 3.0 orchestre les pipelines de bout en bout, de l'acquisition des données à l'entraînement des modèles et à la visualisation. La même infrastructure accélérée par GPU peut être utilisée pour les frameworks Spark, mais aussi pour l'apprentissage automatique et le Deep Learning (ML/DL), ce qui évite d’avoir recours à des clusters distincts et permet à l'intégralité du pipeline de profiter de l’accélération GPU.

Réduction des coûts d’infrastructure

Réduction des coûts d’infrastructure

Faites plus avec moins : Spark sur les GPU NVIDIA® permet de réaliser plus rapidement des projets en utilisant moins de ressources matérielles qu'avec un CPU, ce qui vous fait gagner du temps tout en réduisant vos coûts d’exploitation sur site ou vos coûts opérationnels dans le Cloud.

Innovations technologiques de Spark 3.0

En raison de la nature éminemment parallèle de nombreuses tâches de traitement des données, il faut que l’architecture avancée et les capacités de calcul parallèle des GPU NVIDIA puissent être mises à profit pour traiter efficacement les requêtes Spark, de la même manière qu'un GPU accélère les charges de travail de Deep Learning grâce à l'IA. L’accélération GPU est entièrement transparente pour les développeurs et ne requiert aucune modification du code source pour vous faire profiter pleinement de ces avantages. Trois innovations essentielles de l’architecture Spark 3.0 ont contribué à la transparence de l’accélération GPU :

Nouvelle solution RAPIDS Accelerator pour Spark 3.0

NVIDIA CUDA® est une architecture révolutionnaire de traitement parallèle qui permet d’accélérer les opérations de calcul sur l’architecture GPU NVIDIA. RAPIDS avec NVIDIA rassemble une collection de bibliothèques open-source superposées sur une pile logicielle CUDA permettant d’accélérer par GPU des pipelines pour la science des données.

En améliorant significativement les performances des opérations Spark SQL et DataFrame, NVIDIA a créé la solution RAPIDS Accelerator pour Spark 3.0, capable d'intercepter et d'accélérer des pipelines d'ETL.

Modifications des composants Spark

Spark 3.0 assure la prise en charge du traitement en colonnes dans l’optimiseur de requêtes Catalyst, où RAPIDS Accelerator se connecte pour accélérer les opérateurs SQL et DataFrame. Quand le plan de requêtes est exécuté, vous pouvez lancer ces opérateurs sur les GPU du cluster Spark.

NVIDIA a également créé une nouvelle implémentation mixte de Spark qui optimise le transfert des données entre les processus Spark. Cette implémentation est basée sur des bibliothèques de communication accélérées par GPU comme UCX, RDMA et NCCL.

Planification optimisée par GPU avec Spark

Spark 3.0 identifie les GPU en tant que ressources de premier niveau, comme les CPU et la mémoire système. Cela permet à Spark 3.0 de mettre en œuvre des charges de travail accélérées par GPU directement sur les serveurs disposant des ressources GPU nécessaires pour l'accélération et l’accomplissement d’une tâche.

Les ingénieurs de NVIDIA ont contribué à cette innovation majeure pour Spark, qui permet de lancer des applications Spark sur les ressources GPU de solutions Spark tierces, mais aussi de clusters YARN et Kubernetes.

Workflows d’analyse des données et d’IA accélérés par Spark

Spark 3.0 marque une étape-clé pour l’analyse de données et l’IA car les opérations ETL sont désormais accélérées, tandis que les applications de ML et DL exploitent la même infrastructure GPU. La pile logicielle complète de ce pipeline de science des données accéléré par GPU est présentée ci-dessous :

Workflows d’analyse des données et d’IA accélérés par Spark

Démarrez avec l’accélération GPU de Spark

Si vous souhaitez bénéficier d’un accès anticipé à RAPIDS Accelerator pour la version Preview d’Apache Spark 3.0, veuillez consulter notre guide d'installation ou contacter l’équipe Spark de NVIDIA.

Adobe

Nous avons constaté des performances significativement plus rapides avec l’accélération NVIDIA pour Spark 3.0 par rapport à l’exécution de Spark sur CPU. Grâce aux gains rapportés par ces GPU ultra-performants, des possibilités inédites s’ouvrent pour l'ajout de fonctionnalités basées sur l’IA dans nos outils intégrés d'analyse et de marketing à la pointe de l'industrie dans Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Notre collaboration continue avec NVIDIA améliore les performances avec les optimisations RAPIDS pour Apache Spark 3.0 et Databricks, au bénéfice de nos clients communs comme Adobe. Ces contributions débouchent sur l'accélération des pipelines de données, de l'entraînement des modèles et du scoring, ce qui se traduit directement par toujours plus d'innovations et de découvertes au profit de notre communauté d'ingénieurs et de chercheurs.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco compte des milliers de clients qui entreprennent d’ambitieux déploiements en matière de Big Data et qui cherchent constamment à accélérer leurs charges de travail. Apache Spark 3.0 repose sur des capacités novatrices permettant d’accéder aux GPU NVIDIA de manière native, ce qui permet de définir une nouvelle génération de lacs de données dédiés à l’accélération des charges de travail dans des domaines comme l’IA, le ML et l’ETL. Cisco travaille en étroite collaboration avec NVIDIA pour faire profiter ses clients de cette nouvelle ère d’innovations.

- Siva Sivakumar, Directeur senior des solutions pour Data Center, Cisco

Adobe

Nous avons constaté des performances significativement plus rapides avec l’accélération NVIDIA pour Spark 3.0 par rapport à l’exécution de Spark sur CPU. Grâce aux gains rapportés par ces GPU ultra-performants, des possibilités inédites s’ouvrent pour l'ajout de fonctionnalités basées sur l’IA dans nos outils intégrés d'analyse et de marketing à la pointe de l'industrie dans Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Notre collaboration continue avec NVIDIA améliore les performances avec les optimisations RAPIDS pour Apache Spark 3.0 et Databricks, au bénéfice de nos clients communs comme Adobe. Ces contributions débouchent sur l'accélération des pipelines de données, de l'entraînement des modèles et du scoring, ce qui se traduit directement par toujours plus d'innovations et de découvertes au profit de notre communauté d'ingénieurs et de chercheurs.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco compte des milliers de clients qui entreprennent d’ambitieux déploiements en matière de Big Data et qui cherchent constamment à accélérer leurs charges de travail. Apache Spark 3.0 repose sur des capacités novatrices permettant d’accéder aux GPU NVIDIA de manière native, ce qui permet de définir une nouvelle génération de lacs de données dédiés à l’accélération des charges de travail dans des domaines comme l’IA, le ML et l’ETL. Cisco travaille en étroite collaboration avec NVIDIA pour faire profiter ses clients de cette nouvelle ère d’innovations.

- Siva Sivakumar, Directeur senior des solutions pour Data Center, Cisco

Adobe

Nous avons constaté des performances significativement plus rapides avec l’accélération NVIDIA pour Spark 3.0 par rapport à l’exécution de Spark sur CPU. Grâce aux gains rapportés par ces GPU ultra-performants, des possibilités inédites s’ouvrent pour l'ajout de fonctionnalités basées sur l’IA dans nos outils intégrés d'analyse et de marketing à la pointe de l'industrie dans Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Notre collaboration continue avec NVIDIA améliore les performances avec les optimisations RAPIDS pour Apache Spark 3.0 et Databricks, au bénéfice de nos clients communs comme Adobe. Ces contributions débouchent sur l'accélération des pipelines de données, de l'entraînement des modèles et du scoring, ce qui se traduit directement par toujours plus d'innovations et de découvertes au profit de notre communauté d'ingénieurs et de chercheurs.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco compte des milliers de clients qui entreprennent d’ambitieux déploiements en matière de Big Data et qui cherchent constamment à accélérer leurs charges de travail. Apache Spark 3.0 repose sur des capacités novatrices permettant d’accéder aux GPU NVIDIA de manière native, ce qui permet de définir une nouvelle génération de lacs de données dédiés à l’accélération des charges de travail dans des domaines comme l’IA, le ML et l’ETL. Cisco travaille en étroite collaboration avec NVIDIA pour faire profiter ses clients de cette nouvelle ère d’innovations.

- Siva Sivakumar, Directeur senior des solutions pour Data Center, Cisco

Téléchargez notre eBook gratuit

Vous voulez optimiser vos workflows Big Data grâce à la puissance incomparable de l’IA ? Téléchargez notre nouvel eBook "Accélération d’Apache Spark 3. x – Exploitez les GPU NVIDIA pour tirer profit de la nouvelle ère de l’analyse de données et de l’IA" pour en savoir plus sur la prochaine évolution d’Apache Spark.