Cartera completa de conmutadores y dispositivos de gestión de tejido para IA y supercomputación a escala.
Descripción
NVIDIA Quantum InfiniBand es la única plataforma de computación en red de NVIDIA del mundo totalmente descargable. Con una capacidad de procesamiento y una densidad de datos sin precedentes, brinda el espectacular salto cualitativo en el rendimiento que se precisa para lograr un rendimiento de centro de datos insuperable con menos costes y complejidad. NVIDIA Quantum InfiniBand también ofrece funciones de red de autorrecuperación, calidad de servicio (QoS) mejorada, control de congestión y enrutamiento adaptativo para proporcionar la mayor capacidad de procesamiento de aplicaciones en general.
Protocolo escalable de reducción y agregación jerárquica (SHARP)™ v4 de NVIDIA para alcanzar un rendimiento 9 veces superior
Más de 10 000 nodos en una topología de árbol grueso de dos niveles
Con aceleración SHARP, para ofrecer un rendimiento hasta 2,5 veces superior
Recuperación más rápida para conseguir una resiliencia 1000 veces superior
InfiniBand es un estándar de interconexión de alto rendimiento diseñado para la comunicación de baja latencia y elevado ancho de banda entre nodos de computación. En el caso de las cargas de trabajo de entrenamiento de IA y HPC que distribuyen la computación entre cientos o miles de unidades GPU, la latencia de la red afecta directamente al tiempo de finalización de los trabajos. NVIDIA Quantum InfiniBand es también la única plataforma de interconexión con compatibilidad con la computación en red, que descarga operaciones colectivas como AllReduce en el propio tejido de conmutación, lo cual libera los ciclos de la GPU para destinarlos a la computación real.
Los diseños de conmutadores convencionales utilizan transceptores ópticos enchufables para conectar el ASIC del conmutador a la conexión de fibra. Cada transceptor es un componente independiente que consume energía, genera calor y puede fallar. A escala de clústeres, esto significa que hay que gestionar y reemplazar miles de transceptores individuales durante la vida útil de la implementación.
El conmutador NVIDIA Quantum-X InfiniBand Photonics integra los motores ópticos directamente en el chip del conmutador, lo cual permite prescindir por completo de los transceptores enchufables. Esto reduce la distancia de la trayectoria eléctrica entre el chip y la fibra, lo cual disminuye el consumo de energía y la latencia, mientras que menos componentes independientes mejoran la fiabilidad y simplifican las operaciones a largo plazo.
La computación en red es la capacidad de los conmutadores NVIDIA Quantum para ejecutar operaciones de procesamiento de datos dentro del tejido de la red sin necesidad de recurrir a unidades CPU o GPU host. La capacidad clave es NVIDIA SHARP, que descarga las operaciones colectivas, como AllReduce, directamente en los conmutadores. En el entrenamiento de IA distribuido, esto reduce el tiempo dedicado a la comunicación entre nodos y libera ciclos de GPU para dedicarlos a la computación. SHARP acelera las operaciones colectivas en el núcleo de la mayoría de los códigos de simulación paralela, lo cual reduce la latencia y la sobrecarga de la CPU. Las aplicaciones que utilizan la capacidad de las pilas de NCCL, OpenMPI, UCX u otras de MPI que cumplen con los estándares se benefician de cambios mínimos en el código, lo cual hace que la computación en red resulte relevante en diversos ámbitos, desde el entrenamiento de IA hasta la dinámica molecular y el modelado climático.
Para las nuevas implementaciones de IA a gran escala, la mejor opción es NVIDIA Quantum-X800 InfiniBand. Ofrece conectividad XDR de 800 Gb/s y está diseñada para las fábricas de IA de última generación que requieren el máximo ancho de banda de escalado horizontal, baja latencia, enrutamiento adaptativo, control de la congestión y computación en red SHARP para colectivos de IA y HPC. El Quantum-2 NDR de 400 Gb/s sigue siendo una opción ideal para la generación Hopper o las implementaciones con costes optimizados, pero para los nuevos clústeres a escala de Blackwell, Quantum-X800 brinda el mejor potencial de rendimiento a largo plazo. El Q3200 es la plataforma de conmutadores Quantum-X800 2U con refrigeración por aire y es idónea para entornos de gran tamaño o de generación mixta que requieren una alta densidad de puertos y una ruta de migración práctica.
NVIDIA Unified Fabric Manager (UFM) es la plataforma de gestión de tejidos para las implementaciones de NVIDIA Quantum InfiniBand. UFM (que se ofrece como dispositivo integrado y como software independiente) se encarga del aprovisionamiento, la supervisión en tiempo real, el diagnóstico y la resolución de problemas proactiva en todo el tejido. NVIDIA UFM Cyber-AI es un dispositivo específico diseñado para detectar comportamientos de red anómalos que pueden indicar amenazas de seguridad o problemas de hardware antes de que afecten a los trabajos.
Esta es una cuestión que suelen plantearse las organizaciones que expanden los clústeres existentes o los construyen por fases. En general, NVIDIA Quantum InfiniBand está diseñado para ofrecer compatibilidad directa: los adaptadores y los conmutadores que funcionan en diferentes generaciones de InfiniBand llegarán a la velocidad común adecuada mediante negociación automática. Para las implementaciones que necesitan conectar entornos Quantum-X800 (XDR, 800 Gb/s) y Quantum-2 (NDR, 400 Gb/s), NVIDIA recomienda el Q3200, un conmutador de varias velocidades diseñado específicamente para conectar estas dos generaciones. En la documentación del conmutador NVIDIA InfiniBand se tratan aspectos específicos de diseño relacionados con la topología, la asignación de puertos y la configuración del tejido mediante el Q3200.
Sí. El dispositivo NVIDIA Skyway™ está diseñado específicamente para este caso de uso y facilita una puerta de enlace de InfiniBand a Ethernet. Skyway permite que los clústeres de computación de InfiniBand se comuniquen con sistemas de almacenamiento asociados a Ethernet, redes de gestión u otros tipos de infraestructura de Ethernet sin necesidad de cambios en ninguno de los dos entornos. Se pueden implementar y escalar varios dispositivos Skyway de forma incremental a medida que aumentan las exigencias de ancho de banda entre tejidos.
Próximos pasos
Esta herramienta en línea puede ayudarle a configurar clústeres basados en fat tree con dos niveles de sistemas de conmutación y topologías de Dragonfly+.
Explore temas de formación técnica en profundidad sobre las redes NVIDIA Quantum InfiniBand a través de NVIDIA Academy.
Visite NVIDIA Marketplace para obtener más información sobre cómo adquirir soluciones de red de NVIDIA.