Los Componentes Básicos de la Comunicación Avanzada de Múltiples GPU
Las crecientes demandas de computación en IA y la computación de alto rendimiento (HPC) están impulsando la necesidad de sistemas multi-GPU con conexiones perfectas entre GPU, para que puedan actuar juntos como un acelerador gigantesco. Pero, aunque PCIe es estándar, su ancho de banda limitado a menudo crea un cuello de botella. Para construir la plataforma informática de extremo a extremo más potente, se necesita una interconexión más rápida y escalable.
NVIDIA® NVLink® es una interconexión directa de GPU a GPU de alta velocidad. NVIDIA NVSwitch™ lleva la interconectividad al siguiente nivel al incorporar múltiples NVLinks para proporcionar comunicación de GPU integral a la velocidad máxima de NVLink dentro de un solo nodo como NVIDIA HGX™ A100. La combinación de NVLink y NVSwitch permitió a NVIDIA escalar eficientemente el rendimiento de IA a múltiples GPU y ganar MLPerf 0.6, el primer punto de referencia de IA en toda la industria.
NVIDIA A100 PCIe con conexión NVLink GPU a GPU
NVIDIA A100 con Conexiones NVLink GPU a GPU
El diagrama de topología de NVSwitch muestra la conexión de dos GPU para simplificar. Ocho o 16 GPU se conectan a todos a través de NVSwitch de la misma manera.
La tecnología NVIDIA NVLink aborda los problemas de interconexión al proporcionar un mayor ancho de banda, más enlaces y una escalabilidad mejorada para configuraciones de sistemas de múltiples GPU. Una sola GPU NVIDIA A100 Tensor Core admite hasta 12 conexiones NVLink de tercera generación para un ancho de banda total de 600 gigabytes por segundo (GB/seg), casi 10 veces el ancho de banda de PCIe Gen 4.
Los servidores como el NVIDIA DGX™ A100 aprovechan esta tecnología para ofrecer una mayor escalabilidad para un entrenamiento de deep learning ultrarrápido. NVLink también está disponible en configuraciones A100 PCIe de dos GPU.
NVLink en NVIDIA A100 duplica el ancho de banda de comunicación entre GPU en comparación con la generación anterior, por lo que los investigadores pueden usar aplicaciones más grandes y sofisticadas para resolver problemas más complejos.
La rápida adopción del deep learning ha impulsado la necesidad de una interconexión más rápida y escalable, ya que el ancho de banda PCIe a menudo crea un cuello de botella en el nivel del sistema multi-GPU. Para que las cargas de trabajo de deep learning se escalen, se necesita un ancho de banda mucho mayor y una latencia reducida.
NVIDIA NVSwitch se basa en la capacidad de comunicación avanzada de NVLink para resolver este problema. Lleva el rendimiento de deep learning al siguiente nivel con una estructura de GPU que permite más GPU en un solo servidor y conectividad de ancho de banda completo entre ellos. Cada GPU tiene 12 NVLinks a NVSwitch para permitir la comunicación de alta velocidad y total.
NVLink y NVSwitch son componentes esenciales de la solución completa de data center NVIDIA que incorpora hardware, redes, software, bibliotecas y aplicaciones y modelos de IA optimizados de NGC™. La plataforma de IA y HPC de extremo a extremo más potente, permite a los investigadores entregar resultados del mundo real e implementar soluciones en la producción, impulsando una aceleración sin precedentes en todas las escalas.
NVSwitch es la primera arquitectura de conmutador en el nodo que admite de ocho a 16 GPU completamente conectadas en un solo nodo de servidor. El NVSwitch de segunda generación impulsa la comunicación simultánea entre todos los pares de GPU a unos increíbles 600 GB/s. Admite una comunicación completa de todos a todos con direccionamiento directo de memoria de igual a igual de GPU. Estas 16 GPU se pueden usar como un acelerador único de alto rendimiento con espacio de memoria unificado y hasta 10 petaFLOPS de potencia informática de deep learning.
Experimente NVIDIA DGX A100, el sistema universal para infraestructura de inteligencia artificial y el primer sistema de inteligencia artificial del mundo basado en la GPU NVIDIA A100 Tensor Core.