Conmutadores y dispositivos NVIDIA Quantum InfiniBand

Cartera completa de conmutadores y dispositivos de gestión de tejido para IA y supercomputación a escala.

Descripción

Acelere la investigación y la innovación con mayor capacidad de datos y computación en red

NVIDIA Quantum InfiniBand es la única plataforma de computación en red de NVIDIA del mundo totalmente descargable. Con una capacidad de procesamiento y una densidad de datos sin precedentes, brinda el espectacular salto cualitativo en el rendimiento que se precisa para lograr un rendimiento de centro de datos insuperable con menos costes y complejidad. NVIDIA Quantum InfiniBand también ofrece funciones de red de autorrecuperación, calidad de servicio (QoS) mejorada, control de congestión y enrutamiento adaptativo para proporcionar la mayor capacidad de procesamiento de aplicaciones en general.

La computación acelerada y las redes posibilitan la supercomputación en la era de la IA

Descubra cómo los conmutadores de red de óptica coempaquetada (CPO) Quantum-X Photonics InfiniBand de NVIDIA permiten a las fábricas de IA reducir sustancialmente el consumo de energía y los costes operativos.

Activar la fotónica de NVIDIA Quantum-X, el conmutador coempaquetado de NVIDIA

Vea en acción el conmutador CPO NVIDIA Quantum-X800 mientras conecta bastidores NVIDIA GB300 para demostrar cómo funciona la fotónica de silicio más avanzada del mundo para la IA de agentes.

Ventajas

Aspectos destacados del conmutador NVIDIA Quantum InfiniBand.

Computación en red

Protocolo escalable de reducción y agregación jerárquica (SHARP)™ v4 de NVIDIA para alcanzar un rendimiento 9 veces superior

Máxima escala

Más de 10 000 nodos en una topología de árbol grueso de dos niveles

Biblioteca de comunicaciones colectivas (NCCL) optimizada

Con aceleración SHARP, para ofrecer un rendimiento hasta 2,5 veces superior

Tejidos de recuperación automática

Recuperación más rápida para conseguir una resiliencia 1000 veces superior

Productos

Conmutadores y dispositivos NVIDIA Quantum InfiniBand

Conmutadores NVIDIA Quantum-X800 InfiniBand

Los conmutadores NVIDIA Quantum-X800 InfiniBand proporcionan un rendimiento de 800 gigabits por segundo (Gb/s), latencia ultrabaja, computación en red avanzada de NVIDIA y prestaciones que elevan el rendimiento global de las aplicaciones en computación de alto rendimiento (HPC) y en centros de datos de IA.

El conmutador fotónico Quantum-X de NVIDIA reduce aún más el consumo energético total y la latencia al minimizar la distancia y el número de conexiones entre los sistemas óptico y electrónico.

Familia de conmutadores NVIDIA Quantum-2 InfiniBand

Los conmutadores NVIDIA Quantum-2 InfiniBand ofrecen un rendimiento de 400 Gb/s, computación en red, motores de aceleración inteligentes, flexibilidad y una arquitectura robusta para lograr un rendimiento inigualable en HPC, IA e infraestructuras en la nube a hiperescala, con un menor nivel de costes y de complejidad.

Puerta de enlace NVIDIA Skyway InfiniBand a Ethernet

El dispositivo NVIDIA® Skyway™ es una puerta de enlace de InfiniBand a Ethernet de 1,6 terabits por segundo (Tb/s) que admite ocho puertos de 100 o 200 Gb en cada lado, tanto en InfiniBand como en Ethernet. El número de dispositivos Skyway se puede escalar fácilmente con el tiempo para satisfacer las exigencias de los usuarios.

Sistemas NVIDIA MetroX-3 XC

NVIDIA MetroX®-3 XC amplía el alcance de InfiniBand hasta los 40 kilómetros. Al permitir la conectividad entre centros de datos remotos, incluidas las infraestructuras perimetrales, y entre centros de datos e infraestructuras de almacenamiento remoto, MetroX-3 XC proporciona cifrado a largas distancias e infraestructuras de multiplexación por división de longitud de onda densa (DWDM).

Innovaciones

Innovaciones de NVIDIA Quantum InfiniBand

Software para conmutadores InfiniBand

NVIDIA NVOS, un sistema operativo para conmutadores InfiniBand destinado a centros de datos de alto rendimiento, permite crear redes que pueden escalar a miles de nodos de computación y almacenamiento, al tiempo que brinda capacidades de supervisión y aprovisionamiento.

Computación en red

Los conmutadores NVIDIA Quantum InfiniBand, incluido el protocolo escalable de reducción y agregación jerárquica (SHARP), descargan y aceleran los algoritmos de reducción de datos, lo cual aumenta el rendimiento y la escalabilidad de las aplicaciones de HPC e IA.

Software HPC escalable

NVIDIA HPC-X® es un completo conjunto de software de interfaz de paso de mensajes (MPI) y acceso a memoria compartida (SHMEM)/espacio de direcciones global particionado (PGAS) que se sirve de la computación en red y los motores de aceleración InfiniBand para optimizar las aplicaciones de investigación e industriales.

Unified Fabric Manager (UFM)

La plataforma NVIDIA UFM® permite a los administradores de centros de datos aprovisionar, supervisar, administrar y solucionar problemas proactivamente de forma eficiente en su infraestructura de red InfiniBand.

Recursos

Sumérjase en los conmutadores basados en óptica coempaquetada de NVIDIA

Los conmutadores de CPO de NVIDIA proporcionan una eficiencia energética 5 veces superior, una resiliencia 10 veces mayor y una implementación 1,3 veces más rápida que los transceptores tradicionales, lo cual ofrece la escalabilidad necesaria para mover las fábricas de IA de última generación.

Encendiendo el conmutador NVIDIA Quantum-X InfiniBand Photonics

Cuando el conmutador NVIDIA Quantum-X CPO Q3450 y ConnectX®-8 SuperNIC™ se conectan a los bastidores GB300, ponen de manifiesto las capacidades de redes de escalado horizontal de la fotónica de silicio de NVIDIA, la solución más avanzada del mundo para la IA de agentes.

Computación en red con NVIDIA SHARP

Los conmutadores NVIDIA Quantum InfiniBand con tecnología SHARP realizan reducciones de datos directamente dentro de la red, lo cual proporciona velocidades significativamente más rápidas y una menor sobrecarga de la CPU que la de los métodos tradicionales.

Maximización del rendimiento para el deep learning distribuido gracias a NVIDIA SHARP

NVIDIA SHARP saca partido de la computación en red en el conmutador Quantum para mejorar radicalmente el rendimiento de las cargas de trabajo de aprendizaje automático distribuido.

Hoja de datos del conmutador NVIDIA Quantum-X800

Hoja de datos del conmutador NVIDIA Quantum-2

Hoja de datos del conmutador NVIDIA Quantum

Hoja de datos de NVIDIA Skyway

Hoja de datos de los sistemas NVIDIA MetroX-3 XC

Manual de usuario de los sistemas NVIDIA MetroX-2 XC

Seguridad multiinquilino con un solo clic gracias a NVIDIA Quantum InfiniBand

Simplificar las operaciones de red para la IA mediante NVIDIA Quantum InfiniBand

Convierta su centro de datos en un megacentro de datos con los sistemas de larga distancia de MetroX

Preguntas frecuentes sobre los conmutadores y los dispositivos NVIDIA Quantum InfiniBand

InfiniBand es un estándar de interconexión de alto rendimiento diseñado para la comunicación de baja latencia y elevado ancho de banda entre nodos de computación. En el caso de las cargas de trabajo de entrenamiento de IA y HPC que distribuyen la computación entre cientos o miles de unidades GPU, la latencia de la red afecta directamente al tiempo de finalización de los trabajos. NVIDIA Quantum InfiniBand es también la única plataforma de interconexión con compatibilidad con la computación en red, que descarga operaciones colectivas como AllReduce en el propio tejido de conmutación, lo cual libera los ciclos de la GPU para destinarlos a la computación real.

Los diseños de conmutadores convencionales utilizan transceptores ópticos enchufables para conectar el ASIC del conmutador a la conexión de fibra. Cada transceptor es un componente independiente que consume energía, genera calor y puede fallar. A escala de clústeres, esto significa que hay que gestionar y reemplazar miles de transceptores individuales durante la vida útil de la implementación.

El conmutador NVIDIA Quantum-X InfiniBand Photonics integra los motores ópticos directamente en el chip del conmutador, lo cual permite prescindir por completo de los transceptores enchufables. Esto reduce la distancia de la trayectoria eléctrica entre el chip y la fibra, lo cual disminuye el consumo de energía y la latencia, mientras que menos componentes independientes mejoran la fiabilidad y simplifican las operaciones a largo plazo.

La computación en red es la capacidad de los conmutadores NVIDIA Quantum para ejecutar operaciones de procesamiento de datos dentro del tejido de la red sin necesidad de recurrir a unidades CPU o GPU host. La capacidad clave es NVIDIA SHARP, que descarga las operaciones colectivas, como AllReduce, directamente en los conmutadores. En el entrenamiento de IA distribuido, esto reduce el tiempo dedicado a la comunicación entre nodos y libera ciclos de GPU para dedicarlos a la computación. SHARP acelera las operaciones colectivas en el núcleo de la mayoría de los códigos de simulación paralela, lo cual reduce la latencia y la sobrecarga de la CPU. Las aplicaciones que utilizan la capacidad de las pilas de NCCL, OpenMPI, UCX u otras de MPI que cumplen con los estándares se benefician de cambios mínimos en el código, lo cual hace que la computación en red resulte relevante en diversos ámbitos, desde el entrenamiento de IA hasta la dinámica molecular y el modelado climático.

Para las nuevas implementaciones de IA a gran escala, la mejor opción es NVIDIA Quantum-X800 InfiniBand. Ofrece conectividad XDR de 800 Gb/s y está diseñada para las fábricas de IA de última generación que requieren el máximo ancho de banda de escalado horizontal, baja latencia, enrutamiento adaptativo, control de la congestión y computación en red SHARP para colectivos de IA y HPC. El Quantum-2 NDR de 400 Gb/s sigue siendo una opción ideal para la generación Hopper o las implementaciones con costes optimizados, pero para los nuevos clústeres a escala de Blackwell, Quantum-X800 brinda el mejor potencial de rendimiento a largo plazo. El Q3200 es la plataforma de conmutadores Quantum-X800 2U con refrigeración por aire y es idónea para entornos de gran tamaño o de generación mixta que requieren una alta densidad de puertos y una ruta de migración práctica.

NVIDIA Unified Fabric Manager (UFM) es la plataforma de gestión de tejidos para las implementaciones de NVIDIA Quantum InfiniBand. UFM (que se ofrece como dispositivo integrado y como software independiente) se encarga del aprovisionamiento, la supervisión en tiempo real, el diagnóstico y la resolución de problemas proactiva en todo el tejido. NVIDIA UFM Cyber-AI es un dispositivo específico diseñado para detectar comportamientos de red anómalos que pueden indicar amenazas de seguridad o problemas de hardware antes de que afecten a los trabajos.

Esta es una cuestión que suelen plantearse las organizaciones que expanden los clústeres existentes o los construyen por fases. En general, NVIDIA Quantum InfiniBand está diseñado para ofrecer compatibilidad directa: los adaptadores y los conmutadores que funcionan en diferentes generaciones de InfiniBand llegarán a la velocidad común adecuada mediante negociación automática. Para las implementaciones que necesitan conectar entornos Quantum-X800 (XDR, 800 Gb/s) y Quantum-2 (NDR, 400 Gb/s), NVIDIA recomienda el Q3200, un conmutador de varias velocidades diseñado específicamente para conectar estas dos generaciones. En la documentación del conmutador NVIDIA InfiniBand se tratan aspectos específicos de diseño relacionados con la topología, la asignación de puertos y la configuración del tejido mediante el Q3200.

Sí. El dispositivo NVIDIA Skyway™ está diseñado específicamente para este caso de uso y facilita una puerta de enlace de InfiniBand a Ethernet. Skyway permite que los clústeres de computación de InfiniBand se comuniquen con sistemas de almacenamiento asociados a Ethernet, redes de gestión u otros tipos de infraestructura de Ethernet sin necesidad de cambios en ninguno de los dos entornos. Se pueden implementar y escalar varios dispositivos Skyway de forma incremental a medida que aumentan las exigencias de ancho de banda entre tejidos.

Próximos pasos

¿Todo listo para empezar?

Configurar el clúster

Esta herramienta en línea puede ayudarle a configurar clústeres basados en fat tree con dos niveles de sistemas de conmutación y topologías de Dragonfly+.

Hacer cursos de redes

Explore temas de formación técnica en profundidad sobre las redes NVIDIA Quantum InfiniBand a través de NVIDIA Academy.

¿Cómo comprar soluciones de red de NVIDIA?

Visite NVIDIA Marketplace para obtener más información sobre cómo adquirir soluciones de red de NVIDIA.