O Subsistema de I/O para o Data Center Moderno e Acelerado por GPU
O data center é a nova unidade de computação, e as GPUs e redes NVIDIA são a base desse ambiente. A computação acelerada precisa de operações aceleradas de entrada/saída (I/O) para maximizar o desempenho. O NVIDIA Magnum IO™, o subsistema de I/O do data center moderno, é a arquitetura para operações paralelas, assíncronas e inteligentes de I/O para o data center, maximizando o desempenho do armazenamento e das operações de I/O da rede para acelerar vários nós e várias GPUs.
Magnum IO, o subsistema de IO para data centers, apresenta os novos aprimoramentos necessários para acelerar IO e as comunicações que oferecem suporte a data centers multilocatários, conhecido como Magnum IO para Supercomputação Nativa do Cloud.
Magnum IO GPUDirect em uma rede InfiniBand permite a arquitetura de vídeo volumétrica distribuída inovadora da Verizon. Ao colocar sua tecnologia em centros de computação de ponta, localizados em centros esportivos nos Estados Unidos e nas instalações da Verizon, eles são capazes de trazer experiências 3D para a mídia e oferecer novas opções para colocá-lo no jogo.
Ele dispensa a CPU para possibilitar operações diretas de I/O entre a memória da GPU, a rede e o armazenamento, garantindo uma largura de banda dez vezes maior.
Ele alivia a contenção da CPU e cria um sistema acelerado por GPU mais equilibrado que oferece uma largura de banda de I/O de pico, com até dez vezes menos núcleos de CPU e uso 30 vezes menor da CPU.
Ele oferece uma implementação otimizada para as plataformas atuais e futuras, sejam as transferências de dados menos granulares e dependentes da latência, mais granulares e dependentes da largura de banda ou coletivas.
O Magnum IO usa I/O de armazenamento, I/O de rede, computação em rede e gerenciamento de I/O para simplificar e acelerar a movimentação, o acesso e a gestão de dados de sistemas com várias GPUs e vários nós. O Magnum IO é compatível com bibliotecas NVIDIA CUDA-X™ e usa uma série de topologias de hardware de GPUs NVIDIA e redes NVIDIA da melhor maneira possível para garantir uma taxa de transferência excelente e baixa latência.
[Blog do Desenvolvedor] Magnum IO - Acelerando a IO no Data Center Moderno
Em sistemas com vários nós e várias GPUs, o baixo desempenho de apenas um thread da CPU dificulta o acesso a dados de dispositivos de armazenamento locais ou remotos. Com a aceleração de I/O de armazenamento, a GPU dispensa a CPU e a memória do sistema, acessando o armazenamento remoto com oito placas de rede de 200 GB/s e chegando a até 1,6 terabits/s de largura de banda bruta de armazenamento.
Tecnologias Inclusas:
A aceleração das operações de I/O da rede baseada no RDMA diminui a sobrecarga das operações de I/O, dispensando a CPU e possibilitando transferências de dados entre GPUs a velocidades de linha da rede e do fabric.
A computação em rede oferece o processamento na rede, acabando com a latência gerada pela passagem para os endpoints e todos os hops no caminho. As Unidades de Processamento de Dados (DPUs) oferecem uma computação de rede acelerada por hardware e definida por software, como mecanismos pré-configurados de processamento de dados e mecanismos programáveis.
Para oferecer otimizações de I/O na computação, na rede e no armazenamento, os usuários precisam de técnicas de telemetria avançada e solução de problemas aprofundada. As plataformas de gerenciamento do Magnum IO oferecem aos operadores de data centers industriais e de pesquisa a possibilidade de provisionar, monitorar, gerenciar e realizar a manutenção preventiva do fabric do data center moderno.
O Magnum IO se conecta às bibliotecas de computação de alto desempenho (HPC) e inteligência artificial (AI) do NVIDIA CUDA-X para acelerar as operações de I/O em diversos casos de uso, da AI à visualização científica.
Atualmente, a ciência de dados e o machine learning (ML) são os maiores segmentos de computação do mundo. Pequenas melhorias na precisão dos modelos preditivos de ML podem gerar bilhões de dólares no resultado. Para aumentar a precisão, a biblioteca do RAPIDS Accelerator tem um embaralhamento acelerado do Apache Spark integrado baseado no UCX e pode ser configurado para usar a comunicação entre GPUs e os recursos do RDMA. Com a NVIDIA Mellanox® InfiniBand, o software Magnum IO, o Spark 3.0 acelerado por GPU e o NVIDIA RAPIDS™, a plataforma de data center da NVIDIA é ideal para acelerar essas cargas de trabalho enormes, garantindo níveis inéditos de desempenho e eficiência.
Adobe Realiza Treinamento de Modelos Sete Vez Mais Rápido com o Spark 3.0 no Databricks e Diminui 90% dos Custos
Para desbloquear as descobertas da próxima geração, os cientistas contam com a simulação para entender melhor as moléculas complexas para a descoberta de medicamentos, a física para novas fontes de energia e os dados atmosféricos para prever melhor os padrões climáticos extremos. Magnum IO expõe mecanismos de aceleração de nível de hardware e smart offloads, como RDMA, GPUDirect e NVIDIA SHARP, enquanto reforça a alta largura de banda de 400 Gb/s e latência ultrabaixa da rede NVIDIA Quantum 2 InfiniBand.
Com a multilocação, as aplicações do usuário podem não estar cientes da interferência indiscriminada do tráfego de aplicações vizinhas. Magnum IO, na mais recente plataforma NVIDIA Quantum 2 InfiniBand, apresenta recursos novos e aprimorados para mitigar o impacto negativo no desempenho do usuário. Isso oferece resultados ideais, bem como a computação de alto desempenho (HPC) mais eficiente e implantações de machine learning em qualquer escala.
Maior Visualização Volumétrica Interativa: Simulação de 150 TB de Sonda de Marte da NASA
Os modelos de AI estão ficando cada vez mais complexos com os desafios da próxima geração, como AI conversacional e sistemas de recomendação baseados em deep learning. Os modelos de AI conversacional como o Megatron-BERT da NVIDIA precisam de um nível de computação três mil vezes maior para serem treinados em comparação com os modelos de classificação de imagens, como o ResNet-50. É preciso ter um desempenho avançado e uma escalabilidade grande para garantir que os pesquisadores continuem se dedicando para descobrir o que é possível fazer com a AI. O uso da rede InfiniBand HDR de 200GB/s com o pacote de softwares Magnum IO oferece uma escalabilidade eficiente para milhares de clusters de GPU.
Treinamento de Deep Learning em Data Centers do Facebook: Design de Sistemas de Escalabilidade Vertical e Escalabilidade Horizontal
Inscreva-se para receber notícias e atualizações.
Facilita as transferências de I/O diretamente para a memória da GPU, removendo os gargalos do caminho de dados de e para a CPU/memória do sistema. Evita a sobrecarga de latência de uma cópia extra por meio da memória do sistema, o que impacta transferências menores e alivia o gargalo de utilização da CPU operando com maior independência.
SAIBA MAIS ›
Leia o Blog: Armazenamento GPUDirect: Um Caminho Direto Entre o Armazenamento e a Memória GPU
Assista ao Webinar: NVIDIA GPUDirect Storage: Acelerando o Caminho dos Dados para a GPU
Apresenta logicamente o armazenamento em rede, como NVMe over Fabrics (NVMe-oF), como uma unidade NVMe local, permitindo que o sistema operacional/hipervisor do host use um driver NVMe padrão em vez de um protocolo de armazenamento de rede remoto.
Conjunto de bibliotecas e drivers NIC otimizados para processamento rápido de pacotes no espaço do usuário, fornecendo uma estrutura e API comum para aplicações de rede de alta velocidade.
Fornece acesso para o adaptador de rede ler ou gravar buffers de dados de memória diretamente em dispositivos pares. Permite que aplicações baseadas em RDMA usem o poder de computação do dispositivo peer sem a necessidade de copiar dados através da memória host.
Framework de nível de produção de código aberto para aplicações centradas em dados e de alto desempenho. Inclui uma interface de baixo nível que expõe operações de rede fundamentais suportadas pelo hardware subjacente. O pacote inclui: bibliotecas MPI e SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM e benchmarks MPI padrão.
Traz primitivos de comunicação com reconhecimento de topologia por meio de sincronização rígida entre os processadores de comunicação.
Oferece uma interface de programação paralela baseada no padrão OpenSHMEM, criando um espaço de endereço global para dados abrangendo a memória de várias GPUs em vários servidores.
Leia o Blog: Acelerando os Coletivos Baseados em Equipe NVSHMEM 2.0 Usando NCCL
Framework de nível de produção de código aberto para aplicações centradas em dados e de alto desempenho. Inclui uma interface de baixo nível que expõe operações de rede fundamentais suportadas pelo hardware subjacente. Também inclui uma interface de alto nível para construir protocolos encontrados em MPI, OpenSHMEM, PGAS, Spark e outras aplicações de alto desempenho e deep learning.
O conjunto de recursos que aceleram o switch e o processamento de pacotes. O ASAP2 transfere a direção de dados e a segurança da CPU para a rede, aumenta a eficiência, adiciona controle e os isola de aplicações maliciosas.
O NVIDIA® BlueField® DPU descarrega tarefas críticas de rede, segurança e armazenamento da CPU, servindo como a melhor solução para lidar com questões de desempenho, eficiência de rede e segurança cibernética no data center moderno.
Reduz o tempo de comunicação MPI e melhora a sobreposição entre computação e comunicações. Empregado pelos adaptadores NVIDIA Mellanox InfiniBand para descarregar o processamento de mensagens MPI da máquina host na placa de rede, permitindo uma cópia zero das mensagens MPI.
Melhora o desempenho de redução de dados e algoritmos de agregação, como em MPI, SHMEM, NCCL e outros, descarregando esses algoritmos da GPU ou da CPU para os elementos de comutação de rede e eliminando a necessidade de enviar dados várias vezes entre os terminais . A integração SHARP aumenta o desempenho do NCCL em 4 vezes e demonstra um aumento de 7 vezes no desempenho para a latência de coletivos MPI.
Permite orquestração de rede, provisionamento, gerenciamento de configuração, gerenciamento de tarefas, visibilidade detalhada da integridade da malha, utilização de tráfego e gerenciamento de soluções Ethernet.
Fornece depuração, monitoramento, gerenciamento e provisionamento eficiente de fabric em data centers para InfiniBand. Suporta telemetria de rede em tempo real com inteligência cibernética e análise de inteligência artificial.