Portefeuille complet de commutateurs et d'appliances de gestion des structures pour l'IA et le calcul intensif à grande échelle.
Aperçu
NVIDIA Quantum InfiniBand est la seule plateforme de calcul en réseau entièrement déchargeable au monde. Elle offre un débit et une densité de données incomparables ainsi qu'un gain de performances suffisant pour atteindre des performances dignes d'un Data Center avec une importante réduction des coûts et de la complexité. NVIDIA Quantum InfiniBand fournit également des capacités d'autoréparation de la mise en réseau, une qualité de service (QoS) accrue, un meilleur contrôle de la congestion et un routage adaptatif pour fournir le débit global d’application le plus élevé.
La quatrième version du protocole SHARP™ (Scalable Hierarchical Aggregation and Reduction Protocol) de NVIDIA fournit des performances 9 fois plus élevées
Plus de 10 000 nœuds dans une topologie Fat Tree à deux niveaux
L'accélération SHARP garantit des performances jusqu'à 2,5 fois plus élevées
Récupération la plus rapide du marché pour une résilience mille fois plus élevée
InfiniBand est une norme d'interconnexion à hautes performances conçue pour assurer une communication à faible latence et à bande passante élevée entre les nœuds de calcul. Pour l'entraînement de l'IA et les charges de travail de HPC qui distribuent les capacités de calcul sur des centaines ou des milliers de GPU, la latence réseau affecte directement le délai d'achèvement des tâches. NVIDIA Quantum InfiniBand est également la seule plateforme d'interconnexion à prendre en charge le calcul en réseau, ce qui permet de décharger les opérations collectives telles que AllReduce sur la structure de commutation en elle-même, ce qui libère des cycles GPU pour le calcul réel.
Les solutions de commutation conventionnelles utilisent des émetteurs-récepteurs optiques enfichables pour connecter l'ASIC du commutateur à la fibre. Chaque émetteur-récepteur constitue un composant discret qui consomme de l'énergie, génère de la chaleur et peut tomber en panne. À l'échelle du cluster, cela englobe des milliers d'émetteurs-récepteurs individuels à gérer et à remplacer tout au long de la durée de vie du déploiement.
Le commutateur photonique NVIDIA Quantum-X InfiniBand intègre les moteurs optiques directement au silicium du commutateur, ce qui élimine le besoin de recourir à des émetteurs-récepteurs branchables. Cela raccourcit le chemin électrique entre la puce et la fibre, ce qui réduit la consommation d'énergie et la latence, tandis que le nombre réduit de composants discrets améliore la fiabilité et simplifie les opérations à long terme.
Le calcul en réseau désigne la capacité des commutateurs NVIDIA Quantum à exécuter des opérations de traitement des données au sein de la structure réseau, sans impliquer les CPU ou GPU hôtes. La principale capacité du calcul en réseau repose sur la technologie NVIDIA SHARP, qui décharge les opérations collectives telles que AllReduce directement sur les commutateurs. Pour l'entraînement distribué de l'IA, cela réduit le temps consacré à la communication inter-nœuds et libère les cycles GPU pour le calcul. SHARP accélère les opérations collectives au cœur de la plupart des codes de simulation parallèles, ce qui réduit la latence et la surcharge CPU. Les applications qui tirent parti de NCCL, OpenMPI, UCX ou d'autres piles logicielles MPI conformes aux normes en vigueur peuvent ainsi faire l'objet de modifications minimes du code, ce qui rend le calcul en réseau pertinent dans tous les domaines, de l'entraînement de l'IA à la dynamique moléculaire en passant par la modélisation climatique.
Pour les nouveaux déploiements de l'IA à grande échelle, nous vous recommandons NVIDIA Quantum-X800 InfiniBand. Ce commutateur fournit une connectivité XDR de 800 Gbit/s et est conçu pour les usines d'IA de nouvelle génération qui nécessitent un maximum de bande passante évolutive, une faible latence, un routage adaptatif, un contrôle de la congestion et un calcul SHARP en réseau pour les opérations collectives d'IA et de HPC. Quantum-2 NDR 400 Gbit/s représente une option particulièrement intéressante pour les déploiements de génération Hopper ou les déploiements optimisés en matière de coûts mais, pour la configuration de nouveaux clusters à l'échelle Blackwell, Quantum-X800 fournit la meilleure option pour garantir des performances optimales sur le long terme. Le commutateur Q3200 constitue une plateforme de commutation 2U à refroidissement par air de génération Quantum-X800. Il convient tout particulièrement aux environnements larges ou mixtes qui nécessitent une densité de ports élevée et un chemin de migration pratique.
NVIDIA Unified Fabric Manager (UFM) est la plateforme de gestion des structures pour les déploiements reposant sur NVIDIA Quantum InfiniBand. UFM (proposée sous forme d'appliance intégrée ou de logiciel autonome) gère l'approvisionnement, la supervision en temps réel, les diagnostics et le dépannage proactif sur l'ensemble de la structure. NVIDIA UFM Cyber-AI est une appliance dédiée à la détection des comportements réseau anormaux susceptibles de révéler des menaces de sécurité ou des problèmes matériels avant qu'ils n'aient un impact sur les tâches.
Il s'agit d'une considération courante pour les entreprises qui souhaitent faire évoluer leurs clusters existants ou qui les développent par phases. En général, NVIDIA Quantum InfiniBand est conçue pour garantir une compatibilité ascendante : les adaptateurs et les commutateurs exploitant différentes générations InfiniBand négocient automatiquement la vitesse commune appropriée. Pour les déploiements nécessitant la connexion des environnements Quantum-X800 (XDR, 800 Gbit/s) et Quantum-2 (NDR, 400 Gbit/s), NVIDIA recommande le Q3200, un commutateur multi-vitesses spécialement conçu pour faire le pont entre ces deux générations. Les considérations de conception spécifiques en matière de topologie, de mappage des ports et de configuration des structures à l'aide du Q3200 sont abordées dans la documentation des commutateurs NVIDIA InfiniBand.
Oui. L'appliance NVIDIA Skyway™, spécifiquement conçue pour ce cas d'utilisation, fournit une passerelle InfiniBand vers Ethernet. Skyway permet aux clusters de calcul InfiniBand de communiquer avec des systèmes de stockage connectés à Ethernet, des réseaux de gestion ou d'autres infrastructures Ethernet sans nécessiter de modification de l'un ou l'autre environnement. Plusieurs appliances Skyway peuvent être déployées puis évoluer de manière incrémentielle à mesure que les besoins en bande passante inter-structures augmentent.
Étapes suivantes
Cet outil en ligne peut vous aider à configurer des clusters basés sur Fat Tree avec deux niveaux de systèmes de commutation et des topologies Dragonfly+.
Découvrez des formations techniques approfondies sur la mise en réseau NVIDIA Quantum InfiniBand grâce à la NVIDIA Academy.
Visitez la boutique de NVIDIA pour en savoir plus sur la manière d'acheter des solutions de NVIDIA pour la mise en réseau.