Sous-système d'E/S pour les Data Centers modernes accélérés par GPU
La nouvelle unité de référence des workflows de calcul informatique sont les Data Centers, qui s’appuient sur les GPU et les technologies de mise en réseau de NVIDIA. Le calcul accéléré par GPU requiert des capacités avancées d’entrée/sortie (E/S) pour fournir le plus haut niveau de performance. NVIDIA Magnum IO™, nouveau sous-système d'E/S des Data Centers modernes, est une architecture essentielle pour les communications parallèles, asynchrones et intelligentes sur Data Center, qui optimise les capacités de stockage et les performances d’E/S sur les réseaux d’entreprise pour la mise en œuvre d’une accélération multi-GPU et multi-nœuds.
Contourne le CPU pour activer des communications E/S directes entre la mémoire GPU, le réseau et le stockage, ce qui permet d’obtenir une bande passante 10 fois plus élevée.
Allège la charge du CPU pour créer un système entièrement accéléré par GPU bien plus équilibré avec une bande passante E/S nettement plus élevée, réduisant par dix le nombres de cœurs CPU requis et optimisant jusqu’à 30 fois l’utilisation du CPU.
Fournit une implémentation soigneusement optimisée pour les plateformes actuelles et futures, que les transferts de données soient de granularité fine et sensibles à la latence, de granularité élevée et sensibles à la bande passante, ou bien encore mixtes.
La technologie Magnum IO s’appuie sur des modules logiciels pour le stockage, la mise en réseau, le calcul sur le réseau et la gestion des communications E/S pour simplifier et accélérer les transferts, l’accès et la gestion des données sur les systèmes multi-GPU et multi-nœuds. Magnum IO, qui prend en charge les bibliothèques NVIDIA CUDA-X™, exploite le plein potentiel des GPU et des topologies matérielles de mise en réseau de NVIDIA pour fournir un rendement optimal et une latence réduite.
[Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center
Dans les systèmes multi-GPU à nœuds multiples, le traitement CPU à thread unique peut impacter de manière critique l’accès aux données sur les périphériques de stockage locaux ou distants. Grâce à l’accélération des performances d’E/S pour le stockage, le GPU peut contourner le CPU et la mémoire système pour accéder à des capacités avancées de stockage via huit cartes d’interface réseau à 200 Go/s, offrant ainsi une bande passante brute de 1,6 térabits/s pour le stockage.
Technologies incluses:
La structure de NVIDIA NVLink® et l’accélération de l’accès direct à la mémoire distante (RDMA) permettent de réduire la charge des communications E/S en contournant le CPU et en permettant des transferts directs de GPU à GPU à un débit maximal.
La fonctionnalité de calcul sur le réseau assure un traitement optimal des données au sein du réseau, ce qui réduit la latence introduite par le transfert des données jusqu’aux points de terminaison. Nos processeurs de traitement des données (DPU), qui mettent en œuvre un processus de calcul défini par logiciel et accéléré matériellement, vous fournissent des moteurs préconfigurés pour le traitement des données ainsi que des moteurs librement programmables.
Pour pouvoir bénéficier d’optimisations E/S relatives au calcul, au réseau et au stockage, les utilisateurs requièrent des techniques avancées de télémétrie et de dépannage. Les plateformes de gestion de Magnum IO permettent aux chercheurs et aux opérateurs de Data Center d’approvisionner, de surveiller, de superviser et de gérer de manière préventive la structure centrale des Data Centers modernes.
La technologie Magnum IO communique efficacement avec les bibliothèques NVIDIA CUDA-X pour l’intelligence artificielle (IA) et le calcul haute performance (HPC) afin d'accélérer les communications E/S dans de nombreux cas d’utilisation allant des applications d’IA à la visualisation scientifique.
Aujourd’hui, la science des données et l’apprentissage automatique (ML) sont les deux principales applications du calcul informatique. Des optimisations, même modestes, de la précision des modèles prédictifs de ML peuvent se traduire par d’importants gains financiers. Pour améliorer la précision globale, la bibliothèque RAPIDS dispose d’un module Apache Spark basé sur UCX, entièrement intégré et accéléré par GPU, qui peut être configuré de façon à mettre en œuvre des communications directes de GPU à GPU et des capacités RDMA avancées. Associée à la technologie NVIDIA de mise en réseau, à la technologie logicielle Magnum IO, à la solution Spark 3.0 accélérée par GPU et à NVIDIA RAPIDS™, la nouvelle plateforme pour Data Center de NVIDIA a été spécialement conçue pour accélérer vos workflows de manière significative avec des performances et une efficacité sans précédent.
Adobe offre des performances 7 fois plus rapides pour l’entraînement des modèles d’IA avec Spark 3.0 sur Databricks pour une réduction des coûts de 90%
Performances TPCx-BB 19,5 fois plus rapides avec accélération significative d’UCX et de RAPIDS sur NVIDIA DGX™ A100
Le calcul haute performance (HPC) est un pilier de la science moderne. Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées afin d'étudier des systèmes moléculaires complexes à des fins de recherche pharmaceutique, d'utiliser de nouveaux modèles physiques pour identifier de nouvelles sources d'énergie ou d'analyser de grands volumes de données atmosphériques pour mieux anticiper les phénomènes climatiques extrêmes. L’environnement logiciel Magnum IO met en œuvre des moteurs d’accélération au niveau matériel et un déchargement intelligent du trafic réseau grâce à des technologies telles que RDMA, NVIDIA GPUDirect®, et NVIDIA SHARP™ (Scalable Hierarchical Aggregation and Reduction Protocol), tout en optimisant la bande passante et en réduisant la latence avec des adaptateurs InfiniBand HDR à 200 Go/s. Vous bénéficiez ainsi de performances plus importantes et d’un déploiement plus efficace de vos différents modèles de HPC et de ML.
Visualisation de volume à haut degré d’interactivité : simulation du programme d’atterrisseurs martiens de la NASA (150 To)
Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle plus précises ou le développement de systèmes de recommandation plus évolués. Les modèles d’IA conversationnelle comme Megatron-BERT de NVIDIA mettent à profit une puissance de calcul 3 000 fois plus importante pour l’entraînement par rapport aux modèles de classification d’images tels que ResNet-50. Permettre aux chercheurs de repousser les limites de l’IA nécessite une puissance de calcul massive et une évolutivité sans précédent. La combinaison des adaptateurs InfiniBand HDR à 200 Go/s et de la pile logicielle Magnum IO offre une évolutivité optimale avec des milliers de GPU au sein d’un seul cluster.
Entraînement de modèles DL sur les Data Centers de Facebook avec des systèmes Scale-Up et scale-Out
Inscrivez-vous à la newsletter.
Facilite les transferts E/S directement vers la mémoire GPU, ce qui permet d’améliorer les échanges de données entre le CPU et la mémoire système. Réduit la latence relative à la mémoire système, ce qui optimise les transferts de petite taille et l’utilisation du CPU en fournissant une meilleure indépendance.
EN SAVOIR PLUS ›
Lire le blog - GDS : chemin d’accès direct entre le stockage et la mémoire GPU
Regarder le webinaire - NVIDIA GDS : accélération des chemins de données vers le GPU
Présente en tant que disque NVMe local des instances logiques de stockage en réseau, telles que NVMe over Fabrics (NVMe-oF), ce qui permet au système d’exploitation hôte et à l’hyperviseur d’utiliser un pilote NVMe standard au lieu d’un protocole distant de stockage réseau.
Ensemble de bibliothèques et de pilotes NIC optimisés pour un traitement rapide des paquets dans l’espace utilisateur, fournissant une API et un framework communs pour les applications de mise en réseau à haute vitesse.
Fournit un accès rapide à l’adaptateur réseau pour lire ou écrire des paquets de données sur les appareils connectés. Permet aux applications compatibles avec RDMA d’utiliser toute la puissance de calcul des appareils connectés sans avoir à copier les données via la mémoire hôte.
Framework de communication open-source pour la production dédié aux applications centrées sur les données et les applications à hautes performances. Inclut une interface de bas niveau qui met en œuvre les opérations réseau fondamentales prises en charge par le matériel sous-jacent. Incorpore les bibliothèques MPI et SHMEM, les technologies Unified Communication X (UCX), NVIDIA SHARP, KNEM et les benchmarks MPI standardisés.
Met en service les fonctions primitives de communication basées sur la topologie grâce à une synchronisation optimale entre les processeurs communicants.
Fournit une interface de programmation parallèle basée sur la norme OpenSHMEM, permettant de créer un espace d’adressage global pour les données couvrant la mémoire de plusieurs GPU sur de multiples serveurs.
Framework de communication open-source pour la production dédié aux applications centrées sur les données et les applications à hautes performances. Inclut une interface de bas niveau qui met en œuvre les opérations réseau fondamentales prises en charge par le matériel sous-jacent. Comporte également une interface de haut niveau permettant de configurer des protocoles dans MPI, OpenSHMEM, PGAS, Spark et d’autres applications de Deep Learning et applications de calcul haute performance.
The set of features that accelerate switch and packet processing. ASAP2 offloads data steering and security from the CPU into the network boosts efficiency, adds control, and isolates them from malicious applications.
LEARN MORE ›
NVIDIA® BlueField® est un processeur de traitement des données (DPU) qui décharge les tâches critiques de stockage, de sécurité et de réseau du CPU, constituant ainsi la meilleure solution pour répondre aux besoins de performance, d’efficacité du réseau et de sécurité informatique relatifs aux Data Centers modernes.
Réduit les délais de communication MPI et optimise la superposition entre les calculs et les communications. Technique mise en œuvre par les adaptateurs NVIDIA Mellanox InfiniBand pour décharger le traitement des messages MPI à partir de la machine hôte sur la carte réseau, ce qui permet une transmission sans copie des messages MPI.
Améliore les performances des algorithmes d’agrégation et de réduction des données dans des bibliothèques comme MPI, SHMEM ou NCCL (entre autres) en transférant ces algorithmes du GPU ou du CPU vers les éléments de commutation réseau, ce qui élimine la nécessité d’envoyer des données à plusieurs reprises entre les différents points de terminaison. L’intégration de SHARP accélère jusqu’à 4 fois les performances de NCCL et optimise jusqu’à 7 fois la latence des bibliothèques MPI.
Offre des fonctionnalités d’orchestration réseau, d’approvisionnement, de gestion de la configuration, de gestion des tâches, de visibilité approfondie de la santé structurelle, de l’utilisation du trafic et de gestion pour une grande variété de solutions Ethernet.
Fournit des fonctionnalités avancées de débogage, de supervision, de gestion et d’approvisionnement des Data Centers avec InfiniBand. Prend en charge la télémétrie réseau en temps réel grâce à des techniques de renseignement et d’analyse optimisées par l’IA.