Al ejecutar cargas de trabajo de entrenamiento distribuido de IA que implican la transferencia de datos entre GPU en distintos hosts, los servidores a menudo experimentan limitaciones de rendimiento, escalabilidad y densidad. Los servidores empresariales habituales no incluyen un conmutador PCIe, por lo que se produce un embotellamiento en la CPU respecto a este tráfico, especialmente en el caso de máquinas virtuales. La transferencia de datos está ligada a la velocidad de la placa de bus común PCIe del host. La contención puede deberse a un problema de equilibrio entre el número de GPU y de NIC. Aunque lo ideal es la relación de uno a uno, el número de carriles y ranuras PCIe en el servidor puede limitar el número total de dispositivos.
El H100 CNX mitiga este problema. Con una ruta específica que va de la red a la GPU, se permite que GPUDirect® RDMA funcione a velocidades de línea cercanas. La transferencia de datos también se produce a velocidades PCIe Gen5, independientemente de la placa de bus común PCIe. El aumento de la potencia de la GPU en un host se puede hacer de forma equilibrada, ya que se consigue la relación ideal entre la GPU y la NIC. Un servidor también puede equiparse con más potencia de aceleración, ya que los aceleradores convergentes necesitan menos carriles y ranuras para los dispositivos PCIe que las tarjetas discretas.