최신 GPU 가속 데이터센터를 위한 IO 하위 시스템
컴퓨팅의 새로운 단위는 데이터센터이며 그 핵심에는 NVIDIA GPU 및 NVIDIA 네트워크가 있습니다. 가속 컴퓨팅을 위해서는 성능을 극대화하기 위한 가속 입출력(IO)이 필요합니다. 최신 데이터센터의 IO 하위 시스템인 NVIDIA® Magnum IO™는 병렬의 비동기식 지능형 데이터센터 IO를 위한 아키텍처로, 멀티 GPU, 멀티 노드 가속화를 위해 스토리지 및 네트워크 IO 성능을 극대화합니다.a
데이터센터의 IO 하위 시스템인 Magnum IO는 다중 테넌트 데이터센터를 지원하는 IO 및 통신을 가속화하는 데 필요한 신규 개선 사항을 소개합니다. 바로 클라우드 네이티브 슈퍼컴퓨팅을 위한 Magnum IO입니다.
Magnum IO GPUDirect는 InfiniBand 네트워크를 통해 Verizon의 획기적인 분산 입체 영상 아키텍처를 가능하게 합니다. 미국 전역의 스포츠 센터와 Verizon 시설에 위치한 멀티 액세스 엣지 컴퓨팅(MEC) 센터에 기술을 배치함으로써 미디어에 3D 경험을 구현하고 실제 경기장과 같은 경험을 제공합니다.
CPU를 우회하여 GPU 메모리, 네트워크 및 스토리지 사이의 직접 IO를 가능하게 하여 10배 높은 대역폭을 제공합니다.
CPU 경합을 완화해 피크 IO 대역폭을 제공하는 더욱 균형 잡힌 GPU 가속 시스템을 구축함으로써 최대 10배 적은 CPU 코어 수 및 30배 낮은 CPU 사용률을 제공합니다.
데이터 전송이 미세하고 지연 시간에 민감한지, 성글고 대역폭에 민감한지, 또는 집합체인지에 상관없이 현재 및 미래의 플랫폼에 최적화된 구현을 제공합니다.
Magnum IO는 스토리지 IO, 네트워크 IO, 인-네트워크 컴퓨팅 및 IO 관리를 활용하여 멀티 GPU, 멀티 노드 시스템을 위한 데이터 이동, 액세스 및 관리를 단순화하고 가속화합니다. Magnum IO는 NVIDIA CUDA-X™ 라이브러리를 지원하며 광범위한 NVIDIA GPU 및 NVIDIA 네트워킹 하드웨어 토폴로지를 최대한 활용하여 최적의 처리량 및 짧은 지연 시간을 달성합니다.
[개발자 블로그] Magnum IO - 현대 데이터센터의 IO 가속화
멀티 노드, 멀티 GPU 시스템에서는 느린 CPU의 단일 스레드 성능이 로컬 또는 원격 스토리지 디바이스에서의 데이터 액세스를 위한 최상 경로에 자리하고 있습니다. 스토리지 IO 가속화를 사용하면 GPU가 CPU 및 시스템 메모리를 우회하고, 200GB/s NIC 8개를 통해 원격 스토리지에 액세스하여 최대 1.6TB/초의 원시 스토리지 대역폭을 달성합니다.
포함된 기술:
NVIDIA NVLink® 패브릭 및 RDMA 기반 네트워크 IO 가속화는 CPU를 우회하고 GPU 간의 직접적인 데이터 전송을 회선 속도로 가능하게 만들어 IO 오버헤드를 줄입니다.
인-네트워크 컴퓨팅은 엔드포인트로 횡단하여 발생하는 지연 시간 및 그 과정에서의 홉을 제거하여 네트워크 내 처리를 제공합니다. 데이터 처리 장치(DPU)는 사전 구성된 데이터 처리 엔진 및 프로그래밍 가능한 엔진을 포함하여 소프트웨어 정의 네트워크 하드웨어 가속 컴퓨팅을 진행합니다.
컴퓨팅, 네트워크 및 스토리지 전반에서 IO 최적화를 제공하기 위해서는 사용자에게 고급 텔레메트리 및 심층적인 문제 해결 기술이 필요합니다. Magnum IO 관리 플랫폼은 연구 및 산업 데이터센터 운영업체에서 최신 데이터센터 패브릭을 효율적으로 프로비저닝, 모니터링, 관리하고 예방적으로 유지하도록 지원합니다.
Magnum IO는 NVIDIA CUDA-X 고성능 컴퓨팅(HPC) 및 인공 지능(AI) 라이브러리와 인터페이싱하여 AI에서 과학적인 비주얼라이제이션에 이르는 광범위한 사용 사례를 위해 IO를 가속화합니다.
오늘날 데이터 사이언스 및 머신 러닝(ML)은 세계에서 가장 큰 컴퓨팅 분야입니다. 예측적 ML 모델의 정확도를 약간만 개선하는 데에도 최종 결과를 얻는 데 엄청난 작업이 필요합니다. 정확도를 향상하기 위해, RAPIDS Accelerator 라이브러리에는 GPU 간 통신 및 RDMA 기능을 활용하도록 구성할 수 있는 UCX 기반의 가속 Apache Spark 셔플이 내장되어 있습니다. NVIDIA 데이터센터 플랫폼은 NVIDIA 네트워킹, Magnum IO 소프트웨어, GPU 가속 Spark 3.0 및 NVIDIA RAPIDS™ 와 결합하여 전례 없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.
Databricks에서 Spark 3.0으로 모델 트레이닝 속도를 7배 높여 90%의 비용을 절감한 Adobe
차세대 발견을 전개하기 위해 과학자들은 신약 개발을 위한 복합분자, 새로운 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하기 위한 대기 데이터를 더 잘 이해할 수 있도록 시뮬레이션을 이용합니다. Magnum IO는 NVIDIA Quantum 2 InfiniBand 네트워킹의 400Gb/s 높은 대역폭 및 초저지연 시간을 강화하는 동시에 하드웨어 수준의 가속화 엔진 및 스마트 오프로드(RDMA, GPUDirect 및 NVIDIA SHARP 기능 등)를 제공합니다.
멀티 테넌시로 인해 사용자 애플리케이션이 이웃 애플리케이션 트래픽의 무차별 혼선을 인식하지 못할 수 있습니다. 최신 NVIDIA Quantum 2 InfiniBand 플랫폼에서 Magnum IO는 사용자의 성능에 미치는 부정적 영향을 완화하기 위한 새롭고 향상된 기능을 갖추고 있습니다. 이를 통해 최적의 결과와 가장 효율적인 HPC(고성능 컴퓨팅) 및 머신 러닝 배포를 모든 규모로 제공합니다.
최대 규모 인터랙티브 볼륨 비주얼라이제이션 - 150TB NASA 화성 착륙 시뮬레이션
AI 모델은 대화형 AI 및 딥 추천 시스템과 같은 새로운 수준의 도전 과제를 수행함에 따라 복잡성이 계속 폭발적으로 증가하고 있습니다. NVIDIA의 Megatron-BERT와 같은 대화형 AI 모델은 ResNet-50과 같은 이미지 분류 모델에 비해 트레이닝하는 데 3,000배보다 더 많은 컴퓨팅 성능이 필요합니다. 연구원들이 AI로 가능한 일의 한계를 계속하여 초월할 수 있도록 지원하는 데는 강력한 성능과 엄청난 확장성이 필요합니다. HDR 200Gb/s 인피니밴드 네트워킹 및 Magnum IO 소프트웨어 스택의 조합은 단일 클러스터에 있는 수천 개의 GPU에 효율적인 확장성을 제공합니다.
Facebook 데이터센터의 딥 러닝 트레이닝: 스케일 업 및 스케일 아웃 시스템의 설계
구독 신청하고 최신 뉴스를 받아가세요.
GPU 메모리로의 직접적인 IO 전송을 용이하게 만들어 CPU/시스템 메모리와의 비용이 많이 드는 데이터 경로 병목 현상을 없애 줍니다. 시스템 메모리를 통해 소규모 전송에 영향을 주는 추가 사본의 지연 시간 오버헤드를 방지하고, 더 높은 독립성으로 운영하여 CPU 사용률 병목 현상을 완화합니다.
자세히 알아보기 ›
블로그 읽기: GPUDirect 스토리지: 스토리지와 GPU 메모리 사이의 직접적인 경로
웨비나 보기: NVIDIA GPUDirect 스토리지: GPU로의 데이터 경로 가속화
NVMe-oF(NVMe over Fabric)와 같은 네트워킹 스토리지를 로컬 NVMe 드라이브로 논리적으로 제시하여 호스트 OS/하이퍼바이저가 원격 네트워킹 스토리지 프로토콜 대신 표준 NVMe-드라이버를 사용하도록 허용합니다.
사용자 공간에서의 고속 패킷 처리를 위한 라이브러리 및 최적화된 NIC 드라이버의 모음으로, 고속 네트워킹 애플리케이션을 위한 프레임워크 및 일반 API를 제공합니다.
네트워크 어댑터가 피어 디바이스에서 직접 메모리 데이터 버퍼를 읽거나 쓸 수 있도록 액세스를 제공합니다. RDMA 기반의 애플리케이션이 호스트 메모리를 통해 데이터를 복사할 필요 없이 피어 디바이스 컴퓨팅 성능을 사용하도록 허용합니다.
데이터 중심의 고성능 애플리케이션을 위한 프로덕션급의 오픈소스 통신 프레임워크입니다. 기본 하드웨어에서 지원되는 기본적인 네트워크 작업을 제공하는 낮은 수준의 인터페이스를 포함합니다. 패키지 포함 사항: MPI 및 SHMEM 라이브러리, Unified Communication X(UCX), NVIDIA SHARP, KNEM 및 표준 MPI 벤치마크.
통신하는 프로세서 간의 긴밀한 동기화를 통해 토폴로지 인식 통신 프리미티브를 구현합니다.
OpenSHMEM 표준을 기반으로 한 병렬 프로그래밍 인터페이스를 제공하여 여러 서버에 걸친 여러 GPU의 메모리를 아우르는 데이터를 위한 전역 주소 공간을 만듭니다.
블로그 보기: Accelerating NVSHMEM 2.0 Team-Based Collectives Using NCCL
데이터 중심의 고성능 애플리케이션을 위한 프로덕션급의 오픈소스 통신 프레임워크입니다. 기본 하드웨어에서 지원되는 기본적인 네트워크 작업을 제공하는 낮은 수준의 인터페이스를 포함합니다. 또한 MPI, OpenSHMEM, PGAS, Spark 및 기타 고성능 및 딥 러닝 애플리케이션에서 찾을 수 있는 프로토콜을 구성하는 높은 수준의 인터페이스도 포함합니다.
Switch 및 Packet 처리를 가속화하는 기능 집합. ASAP2 에서 데이터 조향 및 보안을 CPU에서 네트워크로 오프로드하여 효율성을 높이고 제어 기능을 추가하며 악성 애플리케이션으로부터 격리.
NVIDIA® BlueField® DPU는 CPU에서 중요한 네트워크, 보안, 스토리지 작업을 오프로드하므로, 최신 데이터센터의 성능, 네트워킹 효율성, 사이버 보안 우려를 해결하기 위한 최상의 솔루션입니다.
MPI 통신 시간을 줄이고 컴퓨팅 및 통신 간의 중복을 개선합니다. NVIDIA Mellanox 인피니밴드 어댑터가 MPI 메시지 처리를 호스트 시스템에서 네트워크 카드로 오프로드하는 데 사용되어 MPI 메시지의 제로 카피를 가능하게 만듭니다.
MPI, SHMEM, NCCL 등에서와 같은 데이터 축소 및 집계 알고리즘을 GPU나 CPU에서 네트워크 전환 요소로 오프로딩하고 엔드포인트 간에 데이터를 여러 번 전송할 필요를 없앰으로써, 이러한 알고리즘의 성능을 개선합니다. SHARP 통합은 NCCL 성능을 4배 높이며 MPI 집합체 지연 시간에 대한 7배의 성능 증가를 보여줍니다.
네트워크 오케스트레이션, 프로비저닝, 구성 관리, 작업 관리, 패브릭 상태에 대한 심층적인 가시성, 트래픽 활용률 및 이더넷 솔루션을 위한 관리를 지원합니다.
인피니밴드용 데이터센터에서 패브릭의 디버깅, 모니터링, 관리 및 효율적인 프로비저닝을 제공합니다. AI 기반의 사이버 인텔리전스 및 분석으로 실시간 네트워크 텔레메트리를 지원합니다.