Science des données
à hautes performances

Exploitez la puissance incomparable des GPU NVIDIA pour accélérer vos workflows de science des données, d’apprentissage automatique et d’IA.

Exécutez des workflows complets de science des données grâce au calcul sur GPU à haute vitesse et à la parallélisation du chargement des données, de la manipulation des données et de l’apprentissage automatique, de manière à mettre en œuvre des pipelines de science des données de bout en bout 50 fois plus rapides.

Pourquoi RAPIDS ?

nvidia-data-science-process-1cn-d

Mise en œuvre d’un écosystème à hautes performances

RAPIDS est une suite de bibliothèques logicielles et d’API open-source qui permet une exécution intégrale des pipelines de science des données sur les GPU, ce qui permet de réduire les délais d’entraînement de plusieurs jours à quelques minutes seulement. Basée sur la technologie NVIDIA® CUDA-X AI, la plateforme RAPIDS s’appuie sur des années de développement et d’innovations en matière de rendu graphique, d’apprentissage automatique, de Deep Learning, de calcul haute performance (HPC) et bien plus encore.

Accélération des délais de traitement

Accélération des délais de traitement

La science des données est une discipline informatique qui s’attache à fournir des résultats de la plus haute précision le plus rapidement possible. RAPIDS s’appuie sur NVIDIA CUDA® pour accélérer vos workflows tout en exécutant l’ensemble du pipeline d’entraînement pour la science des données sur les GPU, ce qui permet de réduire la durée du processus d’entraînement et la fréquence de déploiement des modèles de plusieurs jours à quelques minutes seulement.

Utilisez les mêmes outils

Utilisez les mêmes outils

En simplifiant l’accès aux techniques de calcul sur GPU ainsi que les protocoles de communication au sein des architectures de Data Center, RAPIDS fournit une méthode simple pour accomplir des projets complexes de science des données. Alors que les data scientists sont de plus en plus nombreux à exploiter Python et des langages de programmation de haut niveau, le recours à l’accélération GPU sans changement de code est d’une importance capitale pour accélérer les projets de développement.

Exécution multiplateformes

Exécution multiplateformes

RAPIDS peut être exécuté n’importe où, aussi bien dans le Cloud que sur site. Vous pouvez facilement passer d’une station de travail à des serveurs multi-GPU jusqu’à des clusters multi-nœuds, mais aussi déployer vos modèles en production avec Dask, Spark, MLFlow et Kubernetes.

Performances ultra-rapides pour le Big Data

Les résultats prouvent que l'accélération GPU permet de réaliser des économies de coûts et de temps considérables concernant les projets d’analyse Big Data, quelle que soit leur échelle. Grâce à des API aussi répandues que Pandas et Dask, RAPIDS s’exécute jusqu’à 20 fois plus vite sur GPU que sur une configuration CPU optimale, à une échelle de 10 téraoctets. Utilisant seulement 16 GPU NVIDIA DGX A100 pour atteindre les mêmes performances que 350 serveurs basés sur CPU, la solution NVIDIA s'avère sept fois plus rentable, tout en délivrant des performances comparables à celles des meilleurs workflows de calcul haute performance.

nvidia-16-dgx-a100-2c50-d

Un accès plus rapide avec une rationalisation des transferts de données

Les tâches courantes de traitement de données se décomposent en plusieurs étapes sous la forme de pipelines de données, que Hadoop ne peut pas toujours gérer de manière optimale. Apache Spark a résolu ce problème en regroupant toutes les données dans la mémoire système, ce qui a favorisé l'apparition de pipelines de données plus polyvalents et complexes, mais a également engendré de nouveaux problèmes de ralentissement des transferts. Jusqu’à récemment, l’analyse de quelques centaines de gigaoctets (Go) de données pouvait prendre plusieurs heures, voire des jours, dans des clusters Spark comptant pourtant des centaines de nœuds CPU. Pour exploiter tout le potentiel de la science des données, les GPU doivent être au centre de la conception des Data Centers en concentrant les cinq éléments suivants : calcul informatique, mise en réseau, stockage, déploiement et logiciels. De manière générale, les workflows de science des données de bout en bout s'exécutent désormais 10 fois plus vite sur GPU que sur CPU.

LIRE LE BLOG ›

Évolution du traitement des données

Un accès plus rapide avec une rationalisation des transferts de données

RAPIDS est accessible partout

RAPIDS fournit une base solide pour la démocratisation d'un nouvel écosystème de science des données à hautes performances, tout en réduisant les obstacles à sa mise en œuvre grâce à son interopérabilité. Son intégration à des frameworks de science des données à la pointe de l’industrie comme Apache Spark, cuPY, Dask, XGBoost et Numba, ainsi qu'à de nombreux frameworks de Deep Learning comme PyTorch, TensorFlow ou Apache MxNet, facilitent son adoption et favorisent son intégration à d’autres technologies.

  • Projets
  • Contributeurs
  • Adoptants
  • Open-source
blazingsql-logo

BlazingSQL est un moteur SQL distribué à hautes performances pour Python, basé sur RAPIDS pour vous permettre de traiter d’importants jeux de données ETL sur les GPU.

nvtabular-logo

Reposant sur RAPIDS, NVTabular accélère le prétraitement et l’ingénierie de fonctionnalités pour les systèmes de recommandation sur les GPU.

custreamz-logo

Basée sur Streamz, codé en Python et reposant sur RAPIDS, cuStreamz accélère le traitement des données en streaming sur les GPU.

plotly-dash-logo

Intégré à RAPIDS, Plotly Dash permet une analyse visuelle en temps réel des jeux de données ultra-volumineux, y compris sur un seul GPU.

apache-spark-logo

L’accélérateur RAPIDS pour Apache Spark vous fournit un ensemble de plug-ins pour Apache Spark exploitant des GPU pour accélérer le traitement informatique via les logiciels RAPIDS et UCX.

anaconda-logo
Blazing SQL
capital-one-logo
cupy-logo
chainer-logo
deepwave-digital-logo
gunrock-logo
quansight-logo
walmart-logo
booz-allen-hamilton-logo
capital-one-logo
databricks-logo
graphistry-logo
h2oai-logo
ibm-logo
iguazio-logo
inria-logo
kinetica-logo
mapr-logo
omnisci-logo
preferred-networks-logo
pytorch-logo
uber-logo
ursa-labs-logo
walmart-logo
apache-arrow-logo
Blazing SQL
cupy-logo
dask-logo
gpu-open-analytics-initiative-goai-logo
nuclio-logo
numba-logo
scikit-learn-logo
dmlc-xgboost-logo

La technologie au cœur des nouveaux processus

RAPIDS, qui s’appuie sur des fonctions primitives CUDA pour l’optimisation des calculs de bas niveau, améliore le parallélisme GPU et la bande passante de la mémoire par le biais d’interfaces Python intuitives. RAPIDS prend en charge des workflows de science des données de bout en bout incluant des champs d’application tels que le chargement et le prétraitement des données, l’apprentissage automatique, l’analyse de graphes et la visualisation. C’est une pile Python entièrement fonctionnelle qui s’adapte aux différents cas d’utilisation du Big Data pour les entreprises.

Prétraitement et chargement des données

Prétraitement et chargement des données

Les fonctionnalités de chargement de données, de prétraitement et d’ETL de RAPIDS s’appuient sur Apache Arrow pour charger, intégrer, agréger, filtrer et manipuler des données, le tout avec une API similaire à pandas pour les data scientists. Les utilisateurs peuvent ainsi s’attendre à des gains d’accélération de 10 fois ou plus.

Apprentissage automatique

Apprentissage automatique

Les algorithmes d’apprentissage automatique et les primitives mathématiques de RAPIDS utilisent une API de type "scikit-learn". Des outils populaires comme XGBoost, Random Forest et bien d’autres sont pris en charge pour vos déploiements, que ce soit sur un seul GPU ou dans des grands Data Centers. Pour les jeux de données volumineux, ces implémentations basées sur GPU peuvent être exécutées à une vitesse de 10 à 50 fois plus rapide que les implémentations similaires sur CPU.

Analyse de graphes

Analyse de graphes

Les algorithmes de graphes comme PageRank et les fonctions telles que NetworkX de RAPIDS utilisent efficacement le parallélisme massif des GPU pour accélérer jusqu’à 1 000 fois l’analyse de grands graphes. Explorez près de 200 millions d’unités sur un seul GPU NVIDIA A100 Tensor Core et interagissez avec des milliards d’unités en faisant évoluer votre configuration sur des clusters de GPU NVIDIA DGX A100.

Visualisation

Visualisation

Les différentes fonctionnalités de visualisation de RAPIDS prennent en charge le filtrage croisé accéléré par GPU. Inspiré par la version JavaScript de son instance d’origine, elle permet un filtrage multidimensionnel ultra-rapide à haut degré d’interactivité sur plus de 100 millions de lignes de données tabulaires.

De l'apprentissage automatique au Deep Learning, directement sur GPU

Intégration du Deep Learning

Si le Deep Learning est très efficace dans des domaines tels que la vision par ordinateur, le traitement automatique du langage naturel et les systèmes de recommandation, il existe des secteurs dans lesquels son utilisation n'est pas encore démocratisée. Les problèmes de données tabulaires, qui consistent en des colonnes de variables catégoriques et continues, sont généralement résolus grâce à des techniques comme XGBoost, l’augmentation de gradient ou les modèles linéaires. RAPIDS rationalise le prétraitement des données tabulaires sur GPU et garantit un transfert fluide des données directement vers des frameworks prenant en charge DLPack, à l'image de PyTorch, TensorFlow ou MxNet. Ces intégrations ouvrent de nouvelles opportunités pour la création de workflows complexes, y compris ceux qui n'avaient aucune raison d'être auparavant, notamment avec la mise en œuvre de nouvelles fonctionnalités sur des frameworks de Deep Learning via des algorithmes d’apprentissage automatique.

Data Centers modernes pour la science des données

La mise en œuvre de Data Centers optimisés pour l’IA au sein de l’entreprise s’appuie sur cinq éléments-clés. Les GPU figurent bien évidemment en leur cœur.

Calcul

Calcul

Grâce à leurs performances de calcul exceptionnelles, les systèmes équipés de GPU NVIDIA forment le composant essentiel du calcul informatique au sein des Data Centers pour l’IA. Les systèmes NVIDIA DGX fournissent des performances d’IA sans précédent et peuvent remplacer en moyenne 50 serveurs CPU Dual-Socket. C’est la première étape qui vous permettra de fournir aux chercheurs les outils les plus puissants de l’industrie pour l’exploration de grands volumes de données.

Logiciels

Logiciels

En simplifiant l’utilisation des GPU et des protocoles de communication au sein des architectures de Data Center, RAPIDS constitue une méthode simple pour mener à bien les projets de science des données. Alors que les data scientists sont de plus en plus nombreux à exploiter Python et des langages de programmation de haut niveau, le recours à l’accélération GPU sans changement de code est d’une importance capitale pour accélérer les projets de développement.

Mise en réseau

Mise en réseau

Les fonctionnalités d’accès direct à la mémoire à distance (RDMA) intégrées aux cartes d’interface réseau (NIC) de NVIDIA Mellanox®, à NCCL2 (bibliothèque de communications collectives de NVIDIA) et à OpenUCX (framework open-source de communications point à point) ont permis de réduire considérablement le délai des procédures d’entraînement. Grâce à l’intégration RDMA, les GPU peuvent communiquer directement entre eux à travers des nœuds jusqu’à 100 Go/s, mais aussi fonctionner sur plusieurs nœuds en toute transparence et comme s’ils se trouvaient sur un seul serveur massif.

Déploiement

Déploiement

Les entreprises se tournent vers des conteneurs Kubernetes et Docker pour déployer des pipelines à haut degré d’évolutivité. En combinant des applications conteneurisées à Kubernetes, les entreprises peuvent revoir leurs priorités en fonction des tâches les plus importantes, ce qui améliore la résilience, la fiabilité et l’évolutivité des Data Centers pour l’IA.

Stockage

Stockage

La technologie de stockage GPUDirect® permet aux instances NVMe et NVMe-oF (NVMe over Fabric) de lire et d’écrire les données directement sur le GPU, en contournant le CPU et la mémoire système. Cela permet de libérer le CPU et la mémoire système pour d’autres tâches, tout en offrant à chaque GPU un accès à de gros volumes de données avec une bande passante jusqu’à 50 % plus importante.

Notre engagement pour la science des données open-source

NVIDIA s’engage à simplifier, à unifier et à accélérer la science des données pour la communauté open-source. En optimisant l’ensemble de la pile informatique - des composants matériels aux solutions logicielles - et en supprimant les goulets d’étranglement pour la science des données itérative, NVIDIA aide tous les data scientists à "en faire plus avec moins". Les entreprises peuvent ainsi créer davantage de valeur ajoutée en s’appuyant sur leurs ressources les plus précieuses : les données et leurs data scientists. En tant que logiciel open-source conforme à Apache 2.0, NVIDIA RAPIDS réunit un écosystème complet sur ses GPU.

Ne disposant pas jusqu’à présent d’une puissance de calcul suffisante, nos data scientists ont dû limiter les capacités de leurs algorithmes de manière à bénéficier d’un minimum de rapidité. Les GPU nous permettent désormais de réaliser des choses auxquelles nous n’aurions jamais pu penser auparavant.

- Bill Groves, Directeur des données, Walmart

Les modèles mondiaux de la NASA peuvent générer plusieurs téraoctets de données. Avant RAPIDS, nous devions appuyer sur un bouton puis attendre patiemment de six à sept heures pour obtenir des résultats. L’accélération du cycle d’entraînement a révolutionné le développement de nos modèles.

-Dr John Keller, NASA Goddard Space Flight Center

Avec une accélération de 100 fois des délais d’entraînement et une réduction des coûts de 98 %, Capital One estime que RAPIDS.ai et Dask constituent le prochaine évolution majeure de la science des données et de l’apprentissage automatique.

-Mike McCarty, Directeur de l’ingénierie logicielle, Centre Capital One pour l’apprentissage automatique

Démarrez dès aujourd’hui