Cuando se ejecutan cargas de trabajo distribuidas de entrenamiento de IA que implican transferencias de datos entre GPU en diferentes hosts, los servidores a menudo se ejecutan con limitaciones de rendimiento, escalabilidad y densidad. Los servidores empresariales típicos no incluyen un switch PCIe, por lo que la CPU se convierte en un obstáculo para este tráfico, especialmente para las máquinas virtuales. Las transferencias de datos dependen de la velocidad del backplane PCIe del host. La limitación puede deberse a un desequilibrio entre la cantidad de GPU y NIC. Si bien la relación uno a uno es ideal, la cantidad de carriles y ranuras PCIe en el servidor puede limitar la cantidad total de dispositivos.
La H100 CNX reduce este problema. Con una ruta dedicada de la red a la GPU, permite que GPUDirect® RDMA funcione a velocidades cercanas a la línea. La transferencia de datos también se produce a velocidades PCIe Gen5, más allá del backplane PCIe del host. La escalabilidad de la potencia de la GPU en un host se puede realizar de forma equilibrada, ya que se logra la relación ideal entre la GPU y la NIC. Un servidor también se puede equipar con más potencia de aceleración, ya que los aceleradores convergentes requieren menos carriles de PCIe y ranuras de dispositivos que las tarjetas discretas.