La plataforma de aceleración de IO para el centro de datos
Las empresas están refinando tus datos y convirtiéndose en fabricantes de inteligencia. Los centros de datos se están convirtiendo en fábricas de IA habilitadas por la computación acelerada, que ha acelerado la computación en un millón de veces. Sin embargo, la computación acelerada requiere IO acelerada. NVIDIA Magnum IO™ es la arquitectura para IO de centro de datos paralelos e inteligentes. Maximiza las comunicaciones multi-GPU, de red y multinodo para las aplicaciones más importantes del mundo, utilizando modelos de lenguaje de gran tamaño, sistemas de recomendación, imágenes, simulación e investigación científica.
NVIDIA Magnum IO utiliza IO de almacenamiento, IO de red, computación en red y gestión de IO para simplificar y acelerar el movimiento de datos, el acceso y la gestión de sistemas multi-GPU y multinodo. Magnum IO es compatible con las bibliotecas de NVIDIA CUDA-X™ y aprovecha al máximo la GPU NVIDIA y las topologías de hardware de red NVIDIA para lograr un rendimiento óptimo y una baja latencia.
[Blog de desarrollador] Magnum IO: Aceleración de IO en centros de datos modernos
En sistemas multinodo y multi-GPU, el rendimiento lento de la CPU y el único subproceso se encuentra en el camino crítico del acceso a los datos desde los dispositivos de almacenamiento locales o remotos. Con la aceleración de IO de almacenamiento, la GPU elude la CPU y la memoria del sistema, y accede al almacenamiento remoto a través de 8 tarjetas de interfaz de red (NIC) de 200 GB/s, con lo que se consiguen hasta 1,6 TB por segundo de ancho de banda de almacenamiento sin procesar.
Tecnologías incluidas:
NVIDIA NVLink®, NVIDIA Quantum InfiniBand, las redes Ethernet y la aceleración de IO de red basada en RDMA reducen la sobrecarga de IO, con lo que se omite la CPU y se habilita la GPU directa con las transferencias de datos en la GPU a velocidades de línea.
La computación en red ofrece un procesamiento dentro de la red, lo que elimina la latencia que se introduce al atravesar las terminales y cualquier salto a lo largo del trayecto. Las unidades de procesamiento de datos (DPU) introducen la computación definida por software y acelerada por hardware de red, que incluye motores de procesamiento de datos preconfigurados y motores programables.
Para ofrecer optimizaciones de IO a través de la computación, la red y el almacenamiento, los usuarios necesitan técnicas avanzadas de telemetría y solución de problemas. Las plataformas de gestión de Magnum IO permiten a los operadores de centros de datos industriales y de investigación aprovisionar, supervisar, gestionar y mantener preventivamente el tejido del centro de datos moderno.
Magnum IO interactúa con las bibliotecas NVIDIA CUDA-X para inteligencia artificial (IA) y computación de alto rendimiento (HPC) que aceleran la IO en una amplia gama de casos de uso, desde la inteligencia artificial a la visualización científica.
Actualmente, la ciencia de datos y el aprendizaje automático (ML) son los mayores segmentos de computación del mundo. Modestas mejoras en la precisión de los modelos predictivos de ML pueden convertirse en miles de millones de dólares en el balance final.
Para mejorar la precisión, la biblioteca de RAPIDS™ Accelerator lleva incorporada una implementación aleatoria de Apache Spark acelerada que se basa en UCX y se puede configurar para aprovechar la comunicación de GPU a GPU y las capacidades de RDMA. Gracias a la combinación de la conexión a red NVIDIA, el software NVIDIA Magnum IO, Spark 3.0 acelerado por GPU y RAPIDS, la plataforma de centro de datos NVIDIA se encuentra en una posición única para acelerar estas enormes cargas de trabajo con niveles de rendimiento y eficiencia sin precedentes.
GPUDirect Storage (GDS) se ha integrado con RAPIDS para lectores ORC, Parquet, CSV y Avro. RAPIDS CuIO ha logrado una mejora del rendimiento de hasta 4,5 veces con los archivos Parquet utilizando GDS en flujos de trabajo a gran escala.
Adobe multiplica por siete la aceleración del entrenamiento de modelos con Spark 3.0 en Databricks con un ahorro del 90 % en costes
Para hacer descubrimientos de próxima generación, los científicos dependen de la simulación para comprender mejor las moléculas complejas de cara al descubrimiento de fármacos, de la física en busca de nuevas fuentes de energía y de los datos atmosféricos con objeto de predecir mejor los patrones climáticos extremos. Las principales aplicaciones y simulaciones aprovechan NVIDIA Magnum IO para acelerar el tiempo de obtención de información. Magnum IO expone motores de aceleración a nivel de hardware y descargas inteligentes, como RDMA, NVIDIA GPUDirect y NVIDIA SHARP, a la vez que refuerza el ancho de banda alto y la latencia ultrabaja de las GPU en red NVIDIA InfiniBand y NVIDIA NVLink.
En los entornos multiinquilino, las aplicaciones de usuario pueden no ser conscientes de la interferencia indiscriminada del tráfico de aplicaciones vecinas. Magnum IO, en la última plataforma NVIDIA Quantum 2 InfiniBand, presenta capacidades nuevas y mejoradas para mitigar el impacto negativo en el rendimiento del usuario. Esto ofrece resultados óptimos, así como las implementaciones de HPC y aprendizaje automático más eficientes a cualquier escala.
Bibliotecas Magnum IO y aplicaciones HPC
El rendimiento de VASP mejora significativamente cuando se sustituye MPI por NCCL. UCX acelera aplicaciones de computación científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K y Spec-HPC2021, para conseguir tiempos de ejecución más rápidos.
NVIDIA HPC-X aumenta la disponibilidad de la CPU, la escalabilidad de las aplicaciones y la eficiencia del sistema para mejorar el rendimiento de las aplicaciones, que están distribuidos por varios ISV de HPC. NCCL, UCX y HPC-X forman parte del HPC-SDK.
Las transformaciones rápidas de Fourier (FFT) se utilizan ampliamente en diversos campos, desde la dinámica molecular, el procesamiento de señales y la dinámica de fluidos computacional (CFD) hasta aplicaciones inalámbricas multimedia y de ML. Al utilizar la biblioteca de memoria compartida de NVIDIA (NVSHMEM)™, cuFFTMp es independiente de la implementación de MPI y funciona más cerca de la velocidad de la luz, lo que es fundamental, ya que el rendimiento puede variar significativamente de un MPI a otro.
La biblioteca de cromodinámica cuántica reticular de análisis de datos cualitativo (QUDA) puede usar NVSHMEM para la comunicación a fin de reducir las sobrecargas de la sincronización de CPU y GPU, y mejorar la superposición de computación y comunicación. Esto reduce las latencias y mejora un escalado potente.
Multinodo Multi-GPU: uso de NVIDIA cuFFTMp FFT a escala
La visualización de volúmenes interactiva más grande del mundo: simulación de aterrizaje en Marte de la NASA (150 TB)
La clase emergente de HPC a exaescala y modelos de IA con billones de parámetros para tareas como la IA conversacional sobrehumana requiere meses de entrenamiento, incluso en superordenadores. Comprimir esto a la velocidad de la empresa para completar la formación en cuestión de días requiere una comunicación rápida y fluida entre todas las GPU de un clúster de servidores, para que puedan escalar el rendimiento. La combinación de NVIDIA NVLink, NVIDIA NVSwitch, bibliotecas NVIDIA Magnum IO y un escalado potente entre servidores ofrece aceleraciones de entrenamiento de IA de hasta 9 veces en modelos de mezcla de expertos (MoE). Esto permite a los investigadores entrenar modelos masivos a la velocidad de la empresa.
Bibliotecas Magnum IO e integraciones de deep learning
NCCL y otras bibliotecas de Magnum IO aprovechan con transparencia la última GPU NVIDIA H100, NVLink, NVSwitch y las redes InfiniBand para proporcionar un aumento significativo de la velocidad de las cargas de trabajo de deep learning, especialmente sistemas de recomendación y entrenamiento de modelos de lenguaje de gran tamaño.
Las ventajas de NCCL incluyen un tiempo más rápido para modelar la precisión del entrenamiento, al tiempo que se logra un ancho de banda de interconexión cercano al 100 % entre servidores en un entorno distribuido.
Se ha habilitado el almacenamiento GPUDirect (GDS) de Magnum IO en la biblioteca de carga de datos (DALI) a través del operador de lectura Numpy. GDS multiplica por 7,2 el aumento del rendimiento de la inferencia de deep learning con DALI en comparación con la línea base de Numpy.
Permitir que los investigadores sigan ampliando los límites de lo que es posible con la inteligencia artificial requiere un rendimiento potente y una enorme escalabilidad. La combinación de redes NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch y la pila de software de Magnum IO ofrece escalabilidad inmediata para cientos de miles de GPU que operan juntas.
El rendimiento aumenta 1,9 veces en LBANN con NVSHMEM frente a MPI
Las GPU se utilizan para acelerar tareas complejas y que requieren mucho tiempo en una amplia gama de aplicaciones, desde gráficos en directo hasta reconstrucción de imágenes estereoscópicas en tiempo real.
La tecnología NVIDIA GPUDirect for Video permite que el hardware de terceros se comunique de forma eficiente con las GPU NVIDIA y minimice los problemas de latencia históricos. Con NVIDIA GPUDirect for Video, los dispositivos IO se sincronizan completamente con la GPU y la CPU para minimizar la pérdida de ciclos al copiar datos entre los controladores del dispositivo.
GPUDirect Storage (GDS) se integra con cuCIM, un kit de herramientas extensible diseñado para proporcionar IO acelerada en la GPU, visión computarizada y primitivas de procesamiento de imágenes para imágenes N-dimensionales con especial atención a las imágenes biomédicas.
En los dos ejemplos siguientes, NVIDIA IndeX® se utiliza con GDS para acelerar la visualización de conjuntos de datos muy grandes involucrados.
Imágenes de microscopio de células vivas en tiempo real con Clara™ Holoscan
La mayor visualización interactiva de volúmenes: simulación de aterrizaje en Marte de 150 TB de la NASA
> GitHub de Magnum IO de NVIDIA > NVIDIA GPUDirect Storage: ruta directa entre el almacenamiento y la memoria de la GPU > Aceleración de IO en centros de datos modernos: IO de red > Acelerar colectivos basados en equipo NVSHMEM 2.0 con NCCL > Optimización del movimiento de datos en aplicaciones de GPU con el entorno de desarrollo NVIDIA Magnum IO > Aceleración de la supercomputación nativa de la nube con Magnum IO > Acceso al MOFED
Regístrate para recibir noticias y actualizaciones de NVIDIA Magnum IO.
Facilita las transferencias de IO directamente a la memoria de la GPU, lo que elimina los costosos cuellos de botella de la ruta de datos de la memoria de la CPU y el sistema. Evita la sobrecarga de la latencia de una copia adicional a través de la memoria del sistema, lo que afecta a las transferencias más pequeñas y reduce el cuello de botella de utilización de CPU al operar con mayor independencia.
MÁS INFORMACIÓN ›
Leer el blog: GPUDirect Storage: ruta directa entre el almacenamiento y la memoria de la GPU
Ver el seminario web: NVIDIA GPUDirect Storage: cómo acelerar la ruta de datos a la GPU
Presenta almacenamiento en red de manera lógica, por ejemplo, NVMe over Fabrics (NVMe-oF), como una unidad NVMe local, lo que permite al sistema de conmutación de host/hipervisor usar un controlador estándar de NVMe en lugar de un protocolo de almacenamiento de red remoto.
Conjunto de bibliotecas y controladores de NIC optimizados para un rápido procesamiento de paquetes en el espacio del usuario, lo que proporciona un entorno de trabajo y una API común para aplicaciones de red de alta velocidad.
Proporciona acceso para que el adaptador de red lea o escriba los búferes de datos de la memoria directamente en los dispositivos del mismo nivel. Permite a las aplicaciones basadas en RDMA usar la potencia de cálculo de dispositivos del mismo nivel sin necesidad de copiar datos a través de la memoria del host.
Entorno de trabajo de comunicación de código abierto y nivel de producción para aplicaciones centradas en datos y de alto rendimiento. Incluye una interfaz de bajo nivel que expone operaciones fundamentales de red compatibles con el hardware subyacente. El paquete incluye: bibliotecas MPI y SHMEM, pruebas de referencia Unified Communication X (UCX), NVIDIA SHARP,KNEM y MPI estándar.
Ofrece primitivas de comunicación compatibles con la topología a través de una estrecha sincronización entre los procesadores de comunicación. NCCL acelera las operaciones colectivas y reduce el tiempo de ejecución del reloj de pared. NCCL se integra con varios componentes de ML de RAPIDs, Rapids Analytics Framework Toolkit (RAFT) y DASK-cuML. cuML es un conjunto de bibliotecas que implementan algoritmos de ML y funciones de primitivas matemáticas. NCCL se integra con PyTorch, NVIDIA Merlin™ HugeCTR, NVIDIA Nemo Megatron, NVIDIA Riva, contenedor de tensorFlow y contenedor de MXNET.
NVSHMEM es el modelo de programación que permite a las aplicaciones emitir accesos detallados a través de la interconexión a escalado vertical de NVLink de 4.ª generación distribuida, al tiempo que se superpone con la computación. Esto permite un aumento significativo de la velocidad para aplicaciones de computación científica distribuidas, como cuFFT con NVSHMEM.
NVSHMEN ofrece una interfaz de programación paralela basada en el estándar OpenSHMEM, que crea un espacio de direcciones global para datos que abarcan la memoria de varias GPU a través de varios servidores.
UCX es un entorno de trabajo de comunicación de código abierto y nivel de producción para aplicaciones centradas en datos y de alto rendimiento. Incluye una interfaz de bajo nivel que expone operaciones fundamentales de red compatibles con el hardware subyacente. También incluye una interfaz de alto nivel para construir protocolos que se encuentran en MPI, OpenSHMEM, PGAS, Spark y otras aplicaciones de alto rendimiento y de DL.
UCX proporciona comunicaciones punto a punto aceleradas por GPU, lo que ofrece el mejor rendimiento al tiempo que utiliza la conectividad NVLINK, PCIe, Ethernet o InfiniBand entre los elementos de computación de la GPU.
El conjunto de características que aceleran el procesamiento de paquetes y conmutadores. ASAP2 descarga la dirección y la seguridad de los datos de la CPU en la red aumenta la eficiencia, añade control y los aísla de aplicaciones maliciosas.
La NVIDIA® BlueField DPU® descarga de la CPU las tareas críticas de red, seguridad y almacenamiento y es la mejor solución para afrontar los desafíos de rendimiento, eficiencia de red y ciberseguridad del centro de datos moderno.
Reduce el tiempo de comunicación de MPI y mejora la superposición entre la computación y las comunicaciones. La emplean los adaptadores NVIDIA Mellanox InfiniBand para descargar el procesamiento de mensajes de MPI desde el equipo host a la tarjeta de red, lo que permite una copia cero de los mensajes de MPI.
Mejora el rendimiento de los algoritmos de reducción y agregación de datos, como en MPI, SHMEM, NCCL y otros, al descargar estos algoritmos de la GPU o la CPU a los elementos de conmutación de red o DPU y eliminar la necesidad de enviar datos varias veces entre terminales de NVLink de 4.ª generación y InfiniBand. La integración de SHARP multiplica por cuatro el rendimiento de NCCL y presenta un aumento del rendimiento siete veces mayor en el caso de la latencia de colectivos MPI. SHARP es compatible con UFM, HPC-X, NCCL y la mayoría de los paquetes MPI basados en estándares del sector.
Introduce la visibilidad holística, la solución de problemas y DevOps en tu red de centro de datos moderno con NVIDIA NetQ, un conjunto de herramientas de operaciones de red moderno y altamente escalable que valida tus tejidos NVIDIA® Cumulus® Linux y SONiC en tiempo real.
Ofrece depuración, supervisión, gestión y aprovisionamiento eficiente del tejido en centros de datos para InfiniBand. Admite telemetría de red en tiempo real con ciberinteligencia y análisis impulsados por IA.