La Plataforma de Aceleración de E/S para el Data Center
Las empresas están refinando sus datos y convirtiéndose en fabricantes de inteligencia. Los data centers se están convirtiendo en fábricas de IA habilitadas por la computación acelerada, lo que ha acelerado la computación en un millón de veces. Sin embargo, la computación acelerada requiere una E/S acelerada. NVIDIA Magnum IO™ es la arquitectura para la E/S de data centers inteligente y en paralelo. Maximiza el almacenamiento, la red y las comunicaciones de múltiples nodos y múltiples GPU para las aplicaciones más importantes del mundo, utilizando grandes modelos de idiomas, sistemas de recomendación, generación de imágenes, simulación e investigación científica.
NVIDIA Magnum IO utiliza E/S de almacenamiento, E/S de red, computación en red y administración de E/S para simplificar y acelerar el movimiento, el acceso y la administración de datos en sistemas de múltiples GPU y múltiples nodos. Magnum IO es compatible con las bibliotecas NVIDIA CUDA-X™ y aprovecha al máximo una variedad de topologías del hardware de red y las GPU de NVIDIA para lograr un rendimiento óptimo y baja latencia.
[Blog de Desarrolladores] Magnum IO: Aceleración de la E/S en el Data Center Moderno
En sistemas de múltiples nodos y múltiples GPU, el rendimiento lento de un solo subproceso y en CPU se encuentran en la ruta crítica de acceso a los datos desde los dispositivos de almacenamiento local o remoto. Con la aceleración de E/S de almacenamiento, la GPU pasa por alto la CPU y la memoria del sistema y accede al almacenamiento remoto a través de 8 NIC de 200 Gb/s. De esta manera, se logra hasta 1.6 TB/s de ancho de banda de almacenamiento sin procesar.
Tecnologías Incluidas:
NVIDIA NVLink®, NVIDIA Quantum InfiniBand, las redes Ethernet y la aceleración de E/S de red basada en RDMA reduce la sobrecarga de E/S, ya que se pasa por alto la CPU y se logran transferencias directas de datos a las GPU a velocidades de línea.
La computación en la red ofrece procesamiento dentro de la red para eliminar la latencia que se genera al atravesar los terminales y los saltos en el camino. Las unidades de procesamiento de datos (DPU) permiten la computación acelerada por hardware de red y definida por software. Esto incluye motores de procesamiento de datos preconfigurados y motores programables.
Para optimizar la E/S en la computación, la red y el almacenamiento, los usuarios necesitan técnicas de resolución de problemas profundas y de telemetría avanzada. Las plataformas de administración de Magnum IO permiten a los operadores de data centers industriales y de investigación aprovisionar, monitorear, administrar y mantener la estructura del data center moderno de manera eficiente y preventiva.
NVIDIA Magnum IO interactúa con las bibliotecas de computación de alto rendimiento (HPC) e (IA) de NVIDIA para acelerar la E/S en una amplia gama de casos de uso, desde la IA hasta la visualización científica.
Hoy en día, la ciencia de datos y el machine learning (ML) son los segmentos de computación más grandes del mundo. Las mejoras modestas en la precisión de los modelos de ML predictivos generan miles de millones de dólares.
Para mejorar la precisión, la biblioteca RAPIDS™ Accelerator tiene un orden aleatorio de Apache Spark acelerado e incorporado que se basa en UCX. Este orden aleatorio se puede configurar para aprovechar la comunicación de GPU a GPU y las capacidades de RDMA. La plataforma de data centers de NVIDIA está en una posición única para acelerar enormes cargas de trabajo mediante un rendimiento y una eficiencia sin precedente, ya que se combina con las redes de NVIDIA, el software NVIDIA Magnum IO, Spark 3.0 acelerado por GPU y RAPIDS.
GPUDirect Storage (GDS) se ha integrado con RAPIDS para lectores ORC, Parquet, CSV y Avro. RAPIDS CuIO ha logrado una mejora del rendimiento de hasta 4.5 veces con archivos Parquet utilizando GDS en workflows a gran escala.
Adobe logra una aceleración 7 veces mayor en el entrenamiento de modelos con Spark 3.0 en Databricks para lograr un ahorro de costos del 90%
Mientras buscan alcanzar los descubrimientos de la próxima generación, los científicos confían en la simulación a fin de comprender mejor las moléculas complejas para descubrir fármacos, la física para detectar nuevas fuentes de energía y los datos atmosféricos para realizar mejores predicciones de los patrones climáticos extremos. Las principales aplicaciones y simulaciones aprovechan NVIDIA Magnum IO para acelerar el tiempo de comprensión. Magnum IO expone motores de aceleración a nivel de hardware y descargas inteligentes, como RDMA, NVIDIA GPUDirect y NVIDIA SHARP, al tiempo que refuerza el alto ancho de banda y la latencia ultrabaja de las GPU en redes con NVIDIA InfiniBand y NVIDIA NVLink.
En entornos de clientes múltiples, las aplicaciones de usuario pueden no estar conscientes de la inferencia indiscriminada del tráfico de aplicaciones vecino. Magnum IO, en la plataforma NVIDIA Quantum-2 InfiniBand más reciente, cuenta con capacidades nuevas y mejoradas para mitigar el impacto negativo en el rendimiento de un usuario. Esto ofrece resultados óptimos, así como las implementaciones de HPC y ML más eficientes a cualquier escala.
Aplicaciones de HPC y Bibliotecas de Magnum IO
El rendimiento de VASP mejora significativamente cuando MPI se reemplaza por NCCL. LA UCX acelera las aplicaciones de computación científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K y Spec-HPC2021, para acelerar los tiempos de ejecución en las frecuencias de trabajo.
NVIDIA HPC-X aumenta la disponibilidad de la CPU, la escalabilidad de aplicaciones y la eficiencia del sistema para mejorar el rendimiento de las aplicaciones, que se distribuye mediante varios ISV de HPC. NCCL, UCX y HPC-X forman parte del HPC-SDK.
Las Transformaciones Rápidas de Fourier (FFT) se usan ampliamente en una variedad de campos, que van desde la dinámica molecular, el procesamiento de señales y la dinámica de fluidos computacional (CFD) hasta las aplicaciones multimedia y de ML inalámbricas. Al usar la Biblioteca de Memoria Compartida de NVIDIA (NVSHMEM)™, cuFFTMp es independiente de la implementación de MPI y opera más cerca de la velocidad de la luz, lo cual es fundamental ya que el rendimiento puede variar significativamente de un MPI a otro.
La biblioteca Lattice Quantum Chromodynamics del Análisis de Datos Cualitativo (QUDA) puede usar NVSHMEM para la comunicación y así reducir los gastos generales de la sincronización de la CPU y la GPU, y mejorar la superposición de la computación y la comunicación. Esto reduce las latencias y mejora la escalabilidad fuerte.
Múltiples Nodos de Múltiples GPU: Uso de FFT NVIDIA cuFFTMp a escala
La Visualización de Volumen Interactiva Más Grande: Simulación De Aterrizaje en Marte de la NASA de 150 TB
La clase emergente de los modelos de IA con billones de parámetros y de HPC a exaescala para tareas como la IA conversacional superhumana requieren meses para entrenarse, incluso en supercomputadoras. Comprimir esto a la velocidad del negocio para completar el entrenamiento en unos días requiere una comunicación altamente rápida y fluida entre cada GPU de un clúster de servidor, para que puedan escalar el rendimiento. La combinación de NVIDIA NVLink, NVIDIA NVSwitch, las bibliotecas de NVIDIA Magnum IO y la fuerte escalabilidad en todos los servidores ofrece aceleraciones de entrenamiento de IA de hasta 9 veces en los modelos de combinación de expertos (MoE). Esto permite a los investigadores entrenar modelos enormes a la velocidad de los negocios.
Bibliotecas de Magnum IO e Integraciones de Deep Learning
NCCL y otras bibliotecas de Magnum IO aprovechan de forma transparente las últimas redes NVIDIA H100 GPU, NVLink, NVSwitch e InfiniBand para proporcionar aceleraciones significativas para las cargas de trabajo de deep learning, en especial los sistemas de recomendación y el entrenamiento de grandes modelos de idiomas.
Los beneficios de NCCL incluyen un tiempo más rápido para lograr una precisión de entrenamiento de modelos, al tiempo que logra un ancho de banda de interconexión cercano al 100 por ciento entre servidores en un entorno distribuido.
Magnum IO GPUDirect Storage (GDS) se ha habilitado en la Biblioteca de carga de datos (DALI) a través del operador de lector Numpy. GDS ofrece hasta 7.2 veces más de rendimiento en la inferencia de deep learning con DALI, en comparación con Numpy de base.
Permitir que los investigadores continúen ampliando los límites de lo que es posible con la IA requiere un rendimiento potente y una escalabilidad masiva. La combinación de redes NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch y la pila de software Magnum IO ofrece escalabilidad lista para usarse para cientos o miles de GPU que operan juntas.
El Rendimiento Aumenta 1.9 Veces en LBANN con NVSHMEM frente a MPI
Las GPU se utilizan para acelerar tareas complejas y que llevan mucho tiempo en una variedad de aplicaciones, desde gráficos en el aire hasta la reconstrucción de imágenes estereoscópicas en tiempo real.
La tecnología NVIDIA GPUDirect for Video permite que el hardware de terceros se comunique de manera eficiente con las GPU de NVIDIA y minimice los problemas de latencia históricos. Con NVIDIA GPUDirect for Video, los dispositivos de E/S se sincronizan completamente con la GPU y la CPU para minimizar los ciclos de desperdicio que copian datos entre los controladores de dispositivos.
GPUDirect Storage (GDS) se integra con cuCIM, un kit de herramientas extensible diseñado para proporcionar primitivas de I/O aceleradas por GPU, visión de computación y procesamiento de imágenes para imágenes dimensionales de N dimensiones con un enfoque en la generación de imágenes biomédicas.
En los siguientes dos ejemplos, NVIDIA IndeX® se usa con GDS para acelerar la visualización de los conjuntos de datos muy grandes involucrados.
Visualiza Imágenes de Microscopía de Células Vivas en Tiempo Real con NVIDIA Clara™ Holoscan
La Visualización de Volumen Interactiva Más Grande: Simulación del Aterrizaje en Marte de la NASA de 150 TB
> NVIDIA Magnum IO GitHub > NVIDIA GPUDirect Storage: Un Camino Directo entre la Memoria de GPU y el Almacenamiento > Aceleración de la E/S en el Data Center Moderno: E/S de Redes > Aceleración de Colectivos Basados en Equipos de NVSHMEM 2.0 Utilizando NCCL > Optimización del Movimiento de Datos en Aplicaciones de GPU con el Entorno de Desarrolladores NVIDIA Magnum IO > Aceleración de la Supercomputación Nativa de Cloud con Magnum IO > Acceso A MOFED
Regístrate para recibir noticias y actualizaciones de NVIDIA Magnum IO.
Facilita las transferencias de E/S directamente a la memoria de la GPU, ya que elimina los costosos obstáculos en la ruta de datos hacia y desde la memoria del sistema o la CPU. Evita la sobrecarga de latencia de una copia adicional a través de la memoria del sistema, que afecta a las transferencias más pequeñas y alivia el cuello de botella de utilización de la CPU al operar con una mayor independencia.
MÁS INFORMACIÓN >
Leer el Blog: GPUDirect Storage: Un Camino Directo entre la Memoria de GPU y el Almacenamiento
Ver el Webinar: NVIDIA GPUDirect Storage: Acelerar el Camino de Datos hacia la GPU
Presenta lógicamente el almacenamiento en red, como NVMe over Fabrics (NVMe-oF), como una unidad NVMe local, lo que permite al sistema operativo/hipervisor del host utilizar un driver NVMe estándar en lugar de un protocolo de almacenamiento de red remoto.
Conjunto de bibliotecas y drivers NIC optimizados para el procesamiento rápido de paquetes en el espacio del usuario, lo que proporciona un framework y una API común para aplicaciones de red de alta velocidad.
Proporciona acceso para que el adaptador de red lea o escriba búferes de datos de memoria directamente en dispositivos de par. Permite que las aplicaciones basadas en RDMA usen la potencia de computación de dispositivo de par sin la necesidad de copiar datos a través de la memoria del host.
Framework de comunicación de grado de producción, basado en código abierto, para aplicaciones centradas en datos y de alto rendimiento. Incluye una interfaz de bajo nivel que expone las operaciones de red fundamentales compatibles con el hardware subyacente. El paquete incluye: las bibliotecas MPI y SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM y las evaluaciones MPI estándar.
Ofrece primitivas de comunicación conscientes de la topología a través de una estrecha sincronización entre los procesadores de comunicación. NCCL acelera las operaciones colectivas y reduce el tiempo de ejecución en las frecuencias de las pantallas. NCCL está integrado con varios componentes de RAPIDs ML, Rapids Analytics Framework Toolkit (RAFT) y DASK-cuML. cuML es un conjunto de bibliotecas que implementan algoritmos de ML y funciones primitivas matemáticas. NCCL está integrado con PyTorch, NVIDIA Merlin™ HugeCTR, NVIDIA Nemo Megatron, NVIDIA Riva, el contenedor TensorFlow y el contenedor MXNET.
NVSHMEM es el modelo de programación que permite a las aplicaciones emitir accesos detallados y detallados en la interconexión de escalabilidad vertical distribuida de 4.ª generación NVLink, mientras se superpone con el procesamiento. Esto permite una aceleración significativa para aplicaciones de computación científica distribuidas, como cuFFT usando NVSHMEM.
NVSHMEM ofrece una interfaz de programación paralela basada en el estándar OpenSHMEM, que crea un espacio de direcciones global para datos que abarca la memoria de múltiples GPU en varios servidores.
UCX es un framework de comunicación de código abierto y de grado de producción para aplicaciones centradas en datos y de alto rendimiento. Incluye una interfaz de bajo nivel que expone las operaciones de red fundamentales compatibles con el hardware subyacente. También incluye una interfaz de alto nivel para construir protocolos que se encuentran en MPI, OpenSHMEM, PGAS, Spark y otras aplicaciones de alto rendimiento y DL.
UCX proporciona comunicaciones punto a punto aceleradas por GPU, para brindar el mejor rendimiento, al tiempo que utiliza la conectividad NVLINK, PCIe, Ethernet o InfiniBand entre los elementos de computación de GPU.
El conjunto de características que aceleran el procesamiento de switches y paquetes. ASAP2 descarga la dirección y la seguridad de los datos de la CPU a la red aumenta la eficiencia, agrega control y los aísla de las aplicaciones maliciosas.
La DPU NVIDIA® BlueField DPU® transfiere las tareas críticas de almacenamiento, seguridad y redes de la CPU, la mejor solución para resolver los desafíos de ciberseguridad, eficacia de redes y rendimiento del centro de datos moderno.
Reduce el tiempo de comunicación MPI y mejora la superposición entre la computación y las comunicaciones. Los adaptadores NVIDIA Mellanox InfiniBand empleados para descargar el procesamiento de mensajes MPI de la máquina host a la tarjeta de red, lo que permite una copia cero de los mensajes MPI.
Mejora el rendimiento de los algoritmos de reducción y agregación de datos, como en MPI, SHMEM, NCCL y otros, al descargar estos algoritmos de la GPU o la CPU a los elementos de switch de red o DPU, y eliminar la necesidad de enviar datos varias veces entre los puntos finales de InfiniBand y NVLink de 4.ª generación. La integración con SHARP aumenta el rendimiento de NCCL 4 veces y demuestra un aumento de 7 veces en el rendimiento para la latencia colectiva MPI. SHARP cuenta con la compatibilidad de UFM, HPC-X, NCCL y la mayoría de los paquetes MPI basados en estándares de la industria.
Introduce visibilidad holística, solución de problemas y DevOps en tu red moderna de data center con NVIDIA NetQ, un conjunto de herramientas de operaciones de red moderno y altamente escalable que valida tus estructuras NVIDIA® Cumulus® Linux y SONiC en tiempo real.
Proporciona depuración, supervisión, administración y aprovisionamiento eficiente de la estructura en los data centers para InfiniBand. Admite la telemetría de red en tiempo real con el análisis y la inteligencia cibernética impulsados por IA.