Los elementos fundamentales de la comunicación multi-GPU avanzada
El aumento de las demandas informáticas en IA y la computación de alto rendimiento (HPC) están impulsando la necesidad de sistemas multi-GPU con conexiones perfectas entre las GPU, por lo que pueden actuar juntos como un acelerador gigantesco. Pero mientras que PCIe es estándar, su ancho de banda limitado a menudo crea atascos. Para crear la plataforma informática integral más potente, se necesita una interconexión más rápida y escalable.
NVIDIA® NVLink® es una interconexión directa de GPU a GPU de alta velocidad. NVIDIA NVSwitch™ lleva la interconectividad al siguiente nivel al incorporar varios NVLinks para proporcionar comunicación GPU entre todos los componentes a toda la velocidad de NVLink en un único nodo como NVIDIA HGX™ A100. La combinación de NVLink y NVSwitch permitió a NVIDIA escalar con eficacia el rendimiento de IA a múltiples GPU y ganar MLPerf 0.6, el primer punto de referencia de IA del sector.
NVIDIA A100 con conexión GPU-a-GPU NVLink
NVIDIA A100 con conexiones GPU-a-GPU NVLink
En este diagrama de la topología de NVSwitch, se muestra la conexión entre dos GPU. Ocho o 16 GPU conectan todos los componentes a través de NVSwitch de la misma manera.
La tecnología NVIDIA NVLink aborda los problemas de interconexión al proporcionar un mayor ancho de banda, más enlaces y una escalabilidad mejorada para configuraciones de sistemas multi-GPU. Una sola GPU NVIDIA A100 Tensor Core admite hasta 12 conexiones NVLink de tercera generación para un ancho de banda total de 600 gigabytes por segundo (GB/s), 10 veces al ancho de banda de PCIe Gen 4.
NVLink en A100 ha aumentado el número de enlaces de 6 a 12. Este vínculo de comunicación directa entre dos GPU mejora la precisión y la convergencia de HPC e IA. NVLink también está disponible en configuraciones de dos GPU de A100 PCIe.
Los servidores como NVIDIA DGX™ aprovechas esta tecnología para ofrecer una mayor escalabilidad para un entrenamiento de aprendizaje profundo ultrarrápido.
NVLink en NVIDIA A100 duplica el ancho de banda de comunicación entre GPU en comparación con la generación anterior, por lo que los investigadores pueden utilizar aplicaciones más grandes y sofisticadas para resolver problemas más complejos.
La rápida adopción del aprendizaje profundo ha generado la necesidad de una interconexión más rápida y escalable, ya que el ancho de banda de PCIe crea con frecuencia un atasco en el nivel de sistemas de multi-GPU. Para que las cargas de trabajo de aprendizaje profundo se escalen, se necesita un ancho de banda considerablemente mayor y una latencia reducida.
NVIDIA NVSwitch se basa en la capacidad de comunicación avanzada de NVLink para resolver este problema. Lleva el rendimiento de aprendizaje profundo al siguiente nivel con un tejido de GPU que permite usar más GPU en un único servidor y conectividad de ancho de banda total entre ellas. Cada GPU tiene 12 NVLinks a NVSwitch para permitir la comunicación de alta velocidad y entre todos los componentes de un mismo nodo.
NVLink y NVSwitch son componentes esenciales de la pila completa de soluciones de centros de datos NVIDIA que incorpora hardware, redes, software, bibliotecas y modelos y aplicaciones de IA optimizadas de NGC™. La plataforma de IA y HPC integral más potente, permite a los investigadores ofrecer resultados del mundo real e implementar soluciones en producción a escala, impulsando una aceleración sin precedentes a todas las escalas.
NVSwitch es la primera arquitectura de conmutador en el nodo que admite de 8 a 16 GPU totalmente conectadas en un único nodo de servidor. La segunda generación de NVSwitch impulsa la comunicación simultánea entre todos los pares de GPU a una increíble velocidad de 600 GB/s. Es compatible con la comunicación entre todos los componentes de un mismo nodo con el direccionamiento directo de memoria punto a punto de GPU. Estas 16 GPU pueden usarse como un acelerador único a gran escala con espacio de memoria unificada y hasta 5 petaFLOPS de potencia de computación de aprendizaje profundo.
Experimenta NVIDIA DGX A100, el sistema universal para la infraestructura de IA y el primer sistema de IA del mundo basado en la GPU NVIDIA A100 Tensor Core.