NVIDIA Magnum IO

최신 GPU 가속 데이터센터를 위한 IO 하위 시스템

데이터센터 스토리지 및 네트워크 IO 성능 극대화

컴퓨팅의 새로운 단위는 데이터센터이며 그 핵심에는 NVIDIA GPU 및 NVIDIA 네트워크가 있습니다. 가속 컴퓨팅을 위해서는 성능을 극대화하기 위한 가속 입출력(IO)이 필요합니다. 최신 데이터센터의 IO 하위 시스템인 NVIDIA Magnum IO™는 병렬의 비동기식 지능형 데이터센터 IO를 위한 아키텍처로, 멀티 GPU, 멀티 노드 가속화를 위해 스토리지 및 네트워크 IO 성능을 극대화합니다.

Magnum IO의 주요 이점

최적화된 IO 성능

CPU를 우회하여 GPU 메모리, 네트워크 및 스토리지 사이의 직접 IO를 가능하게 하여 10배 높은 대역폭을 제공합니다.

시스템 밸런스 및 활용률

CPU 경합을 완화해 피크 IO 대역폭을 제공하는 더욱 균형 잡힌 GPU 가속 시스템을 구축함으로써 최대 10배 적은 CPU 코어 수 및 30배 낮은 CPU 사용률을 제공합니다.

완벽한 통합

데이터 전송이 미세하고 지연 시간에 민감한지, 성글고 대역폭에 민감한지, 또는 집합체인지에 상관없이 현재 및 미래의 플랫폼에 최적화된 구현을 제공합니다.

Magnum IO 최적화 스택

Magnum IO는 스토리지 IO, 네트워크 IO, 인-네트워크 컴퓨팅 및 IO 관리를 활용하여 멀티 GPU, 멀티 노드 시스템을 위한 데이터 이동, 액세스 및 관리를 단순화하고 가속화합니다. Magnum IO는 NVIDIA CUDA-X™ 라이브러리를 지원하며 광범위한 NVIDIA GPU 및 NVIDIA 네트워킹 하드웨어 토폴로지를 최대한 활용하여 최적의 처리량 및 짧은 지연 시간을 달성합니다.

 [개발자 블로그] Magnum IO - 최신 데이터 센터의 가속화 IO

Magnum IO Optimization Stack

스토리지 IO

멀티 노드, 멀티 GPU 시스템에서는 느린 CPU의 단일 스레드 성능이 로컬 또는 원격 스토리지 디바이스에서의 데이터 액세스를 위한 최상 경로에 자리하고 있습니다. 스토리지 IO 가속화를 사용하면 GPU가 CPU 및 시스템 메모리를 우회하고, 200GB/s NIC 8개를 통해 원격 스토리지에 액세스하여 최대 1.6TB/초의 원시 스토리지 대역폭을 달성합니다.

포함된 기술:

네트워크 IO

NVIDIA NVLink® 패브릭 및 RDMA 기반 네트워크 IO 가속화는 CPU를 우회하고 GPU 간의 직접적인 데이터 전송을 회선 속도로 가능하게 만들어 IO 오버헤드를 줄입니다.

포함된 기술:

인-네트워크 컴퓨팅

인-네트워크 컴퓨팅은 엔드포인트로 횡단하여 발생하는 지연 시간 및 그 과정에서의 홉을 제거하여 네트워크 내 처리를 제공합니다. 데이터 처리 장치(DPU)는 사전 구성된 데이터 처리 엔진 및 프로그래밍 가능한 엔진을 포함하여 소프트웨어 정의 네트워크 하드웨어 가속 컴퓨팅을 진행합니다.

포함된 기술:

IO 관리

컴퓨팅, 네트워크 및 스토리지 전반에서 IO 최적화를 제공하기 위해서는 사용자에게 고급 텔레메트리 및 심층적인 문제 해결 기술이 필요합니다. Magnum IO 관리 플랫폼은 연구 및 산업 데이터센터 운영업체에서 최신 데이터센터 패브릭을 효율적으로 프로비저닝, 모니터링, 관리하고 예방적으로 유지하도록 지원합니다.

포함된 기술:

애플리케이션 전반에서 IO 가속화

Magnum IO는 NVIDIA CUDA-X 고성능 컴퓨팅(HPC) 및 인공 지능(AI) 라이브러리와 인터페이싱하여 AI에서 과학적인 비주얼라이제이션에 이르는 광범위한 사용 사례를 위해 IO를 가속화합니다.

  • 데이터 분석
  • 고성능 컴퓨팅
  • 딥 러닝
데이터 분석

데이터 분석

오늘날 데이터 사이언스 및 머신 러닝(ML)은 세계에서 가장 큰 컴퓨팅 분야입니다. 예측적 ML 모델의 정확도를 약간만 개선하는 데에도 최종 결과를 얻는 데 엄청난 작업이 필요합니다. 정확도를 향상하기 위해, RAPIDS Accelerator 라이브러리에는 GPU 간 통신 및 RDMA 기능을 활용하도록 구성할 수 있는 UCX 기반의 가속 Apache Spark 셔플이 내장되어 있습니다. NVIDIA 데이터센터 플랫폼은 NVIDIA 네트워킹, Magnum IO 소프트웨어, GPU 가속 Spark 3.0 및 NVIDIA RAPIDS 와 결합하여 전례 없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.

 Databricks에서 Spark 3.0으로 모델 트레이닝 속도를 7배 높여 90%의 비용을 절감한 Adobe

 NVIDIA DGX A100을 기반으로 19.5배 빠른 TPCx-BB 성능 기록을 낸 UCX 및 RAPIDS 데이터 사이언스 소프트웨어

고성능 컴퓨팅

고성능 컴퓨팅

HPC는 현대 과학을 지탱하는 핵심 기반입니다. 차세대 발견을 전개하기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 새로운 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해할 수 있도록 시뮬레이션을 이용합니다. Magnum IO는 HDR 200GB/s 인피니밴드의 높은 대역폭 및 초저 지연 시간을 강화하는 동시에 하드웨어 수준의 가속화 엔진 및 스마트 오프로드(RDMA, NVIDIA GPUDirect® 및 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP) 기능 등)를 제공합니다. 이는 어떤 규모에서든 최고 수준의 성능과 가장 효율적인 HPC 및 ML 배포를 제공합니다.

최대 규모 인터랙티브 볼륨 비주얼라이제이션 - 150TB NASA 화성 착륙 시뮬레이션

딥 러닝

딥 러닝

AI 모델은 대화형 AI 및 딥 추천 시스템과 같은 새로운 수준의 도전 과제를 수행함에 따라 복잡성이 계속 폭발적으로 증가하고 있습니다. NVIDIA의 Megatron-BERT와 같은 대화형 AI 모델은 ResNet-50과 같은 이미지 분류 모델에 비해 트레이닝하는 데 3,000배보다 더 많은 컴퓨팅 성능이 필요합니다. 연구원들이 AI로 가능한 일의 한계를 계속하여 초월할 수 있도록 지원하는 데는 강력한 성능과 엄청난 확장성이 필요합니다. HDR 200Gb/s 인피니밴드 네트워킹 및 Magnum IO 소프트웨어 스택의 조합은 단일 클러스터에 있는 수천 개의 GPU에 효율적인 확장성을 제공합니다.  

Facebook 데이터센터의 딥 러닝 트레이닝: 스케일 업 및 스케일 아웃 시스템의 설계

구독 신청하고 최신 뉴스를 받아가세요.