Lors de l’exécution de charges de travail distribuées pour l’entraînement des modèles d’IA, pouvant impliquer des transferts de données entre les GPU sur différents hôtes, les serveurs sont souvent confrontés à des limitations de performance, d’évolutivité et de densité. Les serveurs d’entreprise n’incluent généralement pas de commutateur PCIe, c’est pourquoi le CPU peut devenir un goulot d’étranglement de ce trafic, en particulier avec les machines virtuelles. Les transferts de données sont liés à la vitesse de l’hôte PCIe. Une contention peut parfois être causée par un déséquilibre entre le nombre de GPU et de cartes d’interface réseau. Même si un ratio One-to-One est évidemment idéal, le nombre de canaux et de connecteurs PCIe au sein du serveur peut limiter le nombre total d’appareils.
Le H100 CNX remédie à ce problème. Grâce à un chemin dédié allant du réseau au GPU, il permet à la technologie GPUDirect® RDMA de fonctionner à des vitesses proches du maximum. Les transferts de données ont également lieu à des vitesses PCIe Gen5, quelle que soit la capacité de l’hôte PCIe. La mise à l’échelle de la puissance GPU d’un hôte peut être effectuée de manière totalement équilibrée, étant donné que la distribution idéale GPU-vers-NIC est atteinte. Chaque serveur peut également bénéficier d’une puissance d’accélération accrue, car les accélérateurs convergés nécessitent moins de canaux et de connecteurs PCIe que les cartes dédiées.