A Plataforma de Aceleração de I/O para o Data Center
As empresas estão refinando seus dados e se tornando fabricantes de inteligência. Os data centers estão se tornando fábricas de AI habilitadas pela computação acelerada, o que agilizou a computação na escala de milhões. No entanto, a computação acelerada requer uma I/O acelerada. O NVIDIA Magnum IO™ é a arquitetura para I/O de data center paralelo e inteligente. Ele maximiza o armazenamento, a rede e as comunicações multi-GPUs e nós para as aplicações mais importantes do mundo, usando grandes modelos de linguagem, sistemas de recomendação, imagens, simulações e pesquisas científicas.
O NVIDIA Magnum IO usa operações de I/O de armazenamento, I/O de rede, computação em rede e gerenciamento de I/O para simplificar e acelerar a movimentação, o acesso e o controle de dados para sistemas multi-GPU com múltiplos nós. O Magnum IO é compatível com bibliotecas NVIDIA CUDA-X™ e faz o melhor uso de uma série de topologias de hardware de rede da NVIDIA e GPUs NVIDIA para alcançar o melhor rendimento e baixa latência.
[Blog do Desenvolvedor]: Magnum IO: Acelerando as Operações de I/O no Data Center Moderno
Em sistemas multi-GPU e com múltiplos nós, o baixo desempenho de apenas uma thread da CPU dificulta o acesso a dados de dispositivos de armazenamento locais ou remotos. Com a aceleração de I/O de armazenamento, a GPU dispensa a CPU e a memória do sistema, acessando o armazenamento remoto com 8 NICs de 200Gb/s e chegando até 1,6TB/s de largura de banda bruta de armazenamento.
Tecnologias Inclusas:
As redes NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet e a aceleração das operações de I/O da rede baseada no RDMA reduzem a sobrecarga das operações de I/O, dispensando a CPU e possibilitando transferências de dados diretas para GPUs a velocidades de linha da rede.
A computação em rede oferece o processamento dentro da rede, eliminando a latência introduzida pela passagem para os endpoints e todos os hops ao longo do caminho. As unidades de processamento de dados (DPUs - Data Processing Units) introduzem a computação definida por software e acelerada por hardware de rede, incluindo mecanismos pré-configurados de processamento de dados e mecanismos programáveis.
Para oferecer otimizações de I/O em computação, rede e armazenamento, os usuários precisam de telemetria profunda e técnicas avançadas de solução de problemas. As plataformas de gerenciamento Magnum IO permitem que os operadores de data centers industriais e de pesquisa provisionem, monitorem, gerenciem e façam a manutenção preventiva do fabric do data center moderno.
O NVIDIA Magnum IO se conecta às bibliotecas de computação de alto desempenho (HPC - High Performance Computing) e AI da NVIDIA para acelerar as operações de I/O em diversos casos de uso, da AI à visualização científica.
Hoje, a ciência de dados e a machine learning (ML) são os maiores segmentos de computação do mundo. Pequenas melhorias na precisão dos modelos preditivos de ML podem gerar bilhões de dólares no resultado final.
Para aumentar a precisão, a biblioteca RAPIDS™ Accelerator oferece um embaralhamento acelerado do Apache Spark integrado baseado no UCX que pode ser configurado para aproveitar a comunicação entre GPUs e os recursos do RDMA. Com o NVIDIA Networking, o software NVIDIA Magnum IO, o Spark 3.0 acelerado por GPU e o RAPIDS, a plataforma de data center da NVIDIA está em uma posição única para acelerar enormes cargas de trabalho em níveis inéditos de desempenho e eficiência.
O GPUDirect Storage (GDS) foi integrado ao RAPIDS para leitores ORC, Parquet, CSV e Avro. O RAPIDS CuIO obteve uma melhoria de desempenho de até 4,5 vezes com arquivos Parquet usando GDS em workflows de grande escala.
Adobe Realiza Treinamento de Modelos 7 Vezes Mais Rápido com o Spark 3.0 no Databricks e Diminui 90% dos Custos
Para realizar descobertas de próxima geração, os cientistas contam com simulações que permitem compreender melhor moléculas complexas para a descoberta de medicamentos, a física para a busca de novas fontes de energia e dados atmosféricos para prever melhor padrões climáticos extremos. As principais aplicações e simulações usam o NVIDIA Magnum IO para agilizar o tempo necessário para obter insights. O Magnum IO expõe mecanismos de aceleração em nível de hardware e reduções de carga inteligentes, como os recursos RDMA, NVIDIA GPUDirect e NVIDIA SHARP, aprimorando a largura de banda alta e a latência ultrabaixa do NVIDIA InfiniBand e as GPUs de rede do NVIDIA NVLink.
Em ambientes multilocatários, as aplicações de usuário podem não ter conhecimento de interferências indiscriminadas do tráfego de aplicações vizinhas. O Magnum IO, na plataforma NVIDIA Quantum-2 InfiniBand mais atual, apresenta recursos novos e aprimorados para reduzir o impacto negativo no desempenho do usuário. Isso oferece resultados ideais, bem como as implantações de HPC e ML mais eficientes em qualquer escala.
Bibliotecas do Magnum IO e Aplicações de HPC
O desempenho do VASP melhora significativamente quando a MPI é substituída pela NCCL. O UCX acelera aplicações de computação científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K e Spec-HPC2021, para tempos de execução wall clock mais rápidos.
O NVIDIA HPC-X aumenta a disponibilidade da CPU, a escalabilidade das aplicações e a eficiência do sistema para melhorar o desempenho das aplicações, que é distribuído por vários ISVs de HPC. NCCL, UCX e HPC-X fazem parte do HPC-SDK.
As Transformações Rápidas de Fourier (FFTs - Fast Fourier Transforms) são amplamente usadas em diversas áreas, desde dinâmica molecular, processamento de sinais e dinâmica de fluidos computacionais (CFD - Computational Fluid Dynamics) até aplicações de multimídia e ML sem fio. Ao usar a Biblioteca de Memória Compartilhada da NVIDIA (NVSHMEM™ - NVIDIA Shared Memory Library), o cuFFTMp é independente da implementação da MPI e opera mais próximo da velocidade da luz, o que é fundamental, pois o desempenho pode variar significativamente de uma MPI para outra.
A biblioteca de Cromodinâmica Quântica na Rede de Análise de Dados Qualitativa (QUDA - Qualitative Data Analysis) pode usar a NVSHMEM para comunicação para reduzir as sobrecargas da sincronização entre CPU e GPU e melhorar a sobreposição da computação e comunicação. Isso reduz as latências e melhora o dimensionamento forte.
Multi-GPUs de Múltiplos Nós: Usando FFTs NVIDIA cuFFTMp em Escala
Maior Visualização Volumétrica Interativa: Simulação de 150TB de Sonda de Marte da NASA
A classe emergente de HPC de exaescala e modelos AI com trilhões de parâmetros para tarefas como AI conversacional sobre-humana exigem meses de treinamento, mesmo em supercomputadores. Compactar isso na velocidade das empresas para concluir o treinamento em poucos dias requer uma comunicação perfeita e de alta velocidade entre todas as GPUs de um cluster de servidores, para que o desempenho possa ser dimensionado. A combinação do NVIDIA NVLink, do NVIDIA NVSwitch, das bibliotecas do NVIDIA Magnum IO e o dimensionamento forte entre servidores oferece acelerações de treinamento de AI de até 9 vezes em modelos do Mixture of Experts (MoE). Isso permite que os pesquisadores treinem modelos enormes na velocidade dos negócios.
Bibliotecas Magnum IO e Integrações de Deep Learning
A NCCL e outras bibliotecas Magnum IO aproveitam de forma transparente as mais atuais redes de GPU NVIDIA H100, NVLink, NVSwitch e InfiniBand para oferecer acelerações significativas para cargas de trabalho de deep learning, especialmente sistemas de recomendação e treinamento de modelos de linguagem grandes.
As vantagens da NCCL incluem mais tempo para modelar precisão de treinamento, ao mesmo tempo que atingem uma largura de banda de interconexão de cerca de 100% entre servidores em um ambiente distribuído.
O Magnum IO GPUDirect Storage (GDS) foi ativado na Biblioteca de Carregamento de Dados (DALI- Data Loading Library) pelo operador leitor do Numpy. O GDS proporciona um aumento de desempenho de até 7,2 vezes mais de inferência de deep learning com DALI em comparação com o Numpy de linha de base.
Permitir que os pesquisadores continuem se dedicando ao que é possível com a AI requer um desempenho poderoso e uma escalabilidade maciça. A combinação da rede NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch e o pacote de software Magnum IO oferece escalabilidade nativa completa para centenas a milhares de GPUs operando juntas.
Desempenho Aumenta 1,9 Vezes no LBANN com NVSHMEM vs. na MPI
As GPUs estão sendo usadas para acelerar tarefas complexas e demoradas em uma variedade de aplicações, desde gráficos em transmissões a reconstrução de imagens estereoscópicas em tempo real.
A tecnologia do NVIDIA GPUDirect para Vídeo permite que o hardware de terceiros se comunique com eficiência com as GPUs da NVIDIA e minimize problemas históricos de latência. Com o NVIDIA GPUDirect para Vídeo, os dispositivos de I/O são totalmente sincronizados com a GPU e a CPU para minimizar ciclos de desperdício copiando dados entre drivers de dispositivos.
O GPUDirect Storage (GDS) integra-se ao cuCIM, um kit de ferramentas extensível criado para fornecer I/O acelerada por GPU, visão computacional e primitivos de processamento de imagens para imagens N-dimensionais com foco em imagens biomédicas.
Nos dois exemplos a seguir, o NVIDIA IndeX® é usado com GDS para acelerar a visualização dos grandes conjuntos de dados envolvidos.
Visualize Imagens de Microscopia de Células Vivas em Tempo Real com o NVIDIA Clara™ Holoscan
> GitHub do NVIDIA Magnum IO > NVIDIA GPUDirect Storage: Um Caminho Direto Entre Armazenamento e Memória de GPU > Acelerando as Operações de I/O no Data Center Moderno: I/O de Rede > Acelerando Coletivos Baseados em Equipe NVSHMEM 2.0 Usando o NCCL > Otimizando a Movimentação de Dados em Aplicações de GPU com o Ambiente de Desenvolvedor NVIDIA Magnum IO > Acelerando a Supercomputação Nativa do Cloud com o Magnum IO > Acesse o MOFED
Inscreva-se para receber novidades e atualizações do NVIDIA Magnum IO.
Facilita as transferências de I/O diretamente para a memória de GPU, removendo os gargalos caros do caminho de dados de e para a memória da CPU/do sistema. Evita a sobrecarga de latência de uma cópia adicional pela memória do sistema, o que afeta transferências menores e alivia o gargalo de uso da CPU operando com mais independência.
SAIBA MAIS ›
Leia o blog: GPUDirect Storage: Um Caminho Direto entre Armazenamento e Memória de GPU
Assista ao Webinar: Armazenamento NVIDIA GPUDirect: Acelerando o Caminho de Dados para a GPU
Apresenta logicamente o armazenamento em rede, como o NVMe over Fabrics (NVMe-oF), como um drive NVMe local, permitindo que o sistema operacional/hipervisor host use um driver NVMe padrão em vez de um protocolo de armazenamento de rede remoto.
Conjunto de bibliotecas e drivers otimizados de NIC para processamento rápido de pacotes no espaço do usuário, fornecendo um framework e uma API comum para aplicações de rede de alta velocidade.
Fornece acesso para que o adaptador de rede leia ou escreva buffers de dados de memória diretamente em dispositivos pares. Permite que aplicações baseadas em RDMA usem a potência computacional de dispositivos pares sem a necessidade de copiar dados pela memória do host.
Framework de comunicação de nível de produção baseado em código aberto para aplicações centradas em dados e de alto desempenho. Inclui uma interface de baixo nível que expõe as operações básicas de rede suportadas pelo hardware subjacente. O pacote inclui: bibliotecas MPI e SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM e benchmarks de MPI padrão.
Traz primitivos de comunicação com reconhecimento de topologia por meio de uma sincronização estreita entre os processadores de comunicação. A NCCL acelera as operações coletivas e reduz o tempo de execução wall-clock. A NCCL é integrada a vários componentes de ML da RAPIDs, ao Rapids Analytics Framework Toolkit (RAFT) e ao DASK-cuML. cuML é um conjunto de bibliotecas que implementam algoritmos de ML e funções matemáticas primitivas. A NCCL é integrada ao PyTorch, ao HugeCTR do NVIDIA Merlin™, ao NVIDIA Nemo Megatron, ao NVIDIA Riva, ao contêiner do TensorFlow e ao contêiner MXNET.
A NVSHMEM é o modelo de programação que permite que as aplicações emitam acessos refinados em toda a interconexão de escalabilidade vertical de 4ª geração distribuída do NVLink, ao mesmo tempo que a sobrepõem com a computação. Isso permite uma aceleração significativa para aplicações distribuídas de computação científica, como cuFFT, usando NVSHMEM.
A NVSHMEM oferece uma interface de programação paralela baseada no padrão OpenSHMEM, criando um espaço de endereço global para dados que abrange a memória de várias GPUs em vários servidores.
O UCX é um framework de comunicação de código aberto e de nível de produção para aplicações centradas em dados e de alto desempenho. Inclui uma interface de baixo nível que expõe as operações básicas de rede suportadas pelo hardware subjacente. Inclui também uma interface de alto nível para construir protocolos encontrados na MPI, em OpenSHMEM, PGAS, Spark e outras aplicações de alto desempenho e DL.
O UCX oferece comunicações ponto a ponto aceleradas por GPU, proporcionando o melhor desempenho e utilizando a conectividade NVLINK, PCIe, Ethernet ou InfiniBand entre elementos de computação de GPU.
O conjunto de recursos que aceleram o processamento de switches e pacotes. O ASAP2 transfere a direção e a segurança dos dados da CPU para a rede, melhora a eficiência, adiciona controle e isola os dados de aplicações mal-intencionadas.
A DPU NVIDIA® BlueField® liberta a CPU de tarefas críticas de rede, segurança e armazenamento e é a melhor solução para lidar com problemas de desempenho, eficiência de rede e de cibersegurança no data center moderno.
Reduz o tempo de comunicação da MPI e melhora a sobreposição entre computação e comunicações. Utilizado pelos adaptadores NVIDIA Mellanox InfiniBand para transferir o processamento de mensagens de MPI do computador host para a placa de rede, possibilitando uma cópia-zero de mensagens de MPI.
Melhora o desempenho de algoritmos de redução e agregação de dados, como MPI, SHMEM, NCCL e outros, transferindo esses algoritmos da GPU ou da CPU para os elementos de switch da rede ou DPU e eliminando a necessidade de enviar dados várias vezes entre endpoints do InfiniBand e do NVLink de 4ª geração. A integração com o SHARP aumenta o desempenho da NCCL em 4 vezes e demonstra um aumento de 7 vezes no desempenho na latência coletiva da MPI. O SHARP é suportado por UFM, HPC-X, NCCL e pela maioria dos pacotes de MPI baseados em padrões do setor.
Garanta visibilidade holística, solução de problemas e DevOps na rede moderna de data center com o NVIDIA NetQ, um conjunto de ferramentas moderno e altamente dimensionável de operações de rede que valida os fabrics NVIDIA® Cumulus® Linux e SONiC em tempo real.
Oferece depuração, monitoramento, gerenciamento e provisionamento eficiente de fabric em data centers para InfiniBand. Compatível com telemetria de rede em tempo real inteligência e análise cibernéticas com tecnologia fornecida por AI.