향상된 멀티 GPU 프로세싱
개발자들이 AI 컴퓨팅과 같은 애플리케이션에서 병렬 처리에 더 많이 의존하면서 다중 GPU 및 CPU가 탑재된 시스템은 다양한 산업에서 흔하게 사용되고 있습니다. 여기에는 방대하고 복잡한 문제를 해결하기 위해 PCIe 시스템 상호 연결을 사용하는 4-GPU 및 8-GPU 시스템 구성 또한 포함됩니다. 하지만 다중 GPU 시스템 수준에서 PCIe 대역폭이 점점 더 병목 지점이 되고 있기 때문에 더 빠르고 더 확장 가능한 다중 프로세서 상호 연결의 필요성이 커지고 있습니다.
NVIDIA® NVLink™ 기술은 더 높은 대역폭, 더 많은 링크, 다중 GPU 및 다중 GPU/CPU 시스템 구성을 위한 개선된 확장 가능성으로 이 상호 연결 문제를 해결합니다. 단일 NVIDIA Tesla® V100 GPU는 최대 6개의 NVLink 링크와 초당 300GB의 최대 대역폭을 지원하는데, 이는 PCIe 3 대역폭의 10배입니다. 새로운 NVIDIA DGX-1™와 같은 서버는 이런 기술의 이점을 활용하여 초고속 딥 러닝 트레이닝을 위한 더 큰 확장 가능성을 제공합니다.
NVIDIA Pascal™ 아키텍처에서 처음 사용된 기술로, Tesla V100의 NVLink는 양방향의 신호 속도를 초당 20~25GB로 증가시켰습니다. DGX-1V와 Tesla V100의 예와 같이 GPU에서 CPU 또는 GPU 간의 통신에 사용될 수 있습니다.
Tesla V100와 NVLink GPU 간 또는 GPU에서 CPU 연결
DGX-1V 서버에서 사용된 것과 같은 하이브리드 큐브 메쉬 토폴로지에서 Tesla V100 가속기 8개를 연결한 NVLink
NVIDIA NVLink는 해당 기술 외에는 동일하게 구성된 서버 대비 성능을 46% 향상시킬 수 있습니다. 현저하게 높아진 대역폭과 감소된 지연은 거대한 딥 러닝 워크로드가 더 커질수록 이에 맞춰 성능을 확장할 수 있게 합니다.
다중 GPU 시스템 수준에서 PCIe 대역폭이 점점 더 병목 지점이 되고 있으므로 딥 러닝 워크로드에서의 신속한 성장은 더 빠르고 더 확장 가능한 상호 연결의 수요를 증가시켰습니다.
NVLink는 8개의 GPU를 단일 서버에서 지원하였으며 PCIe를 넘어선 성능 가속화를 이루는 등 대단한 발전을 보였습니다. 하지만 딥 러닝 성능을 다음 단계로 끌어올리려면 더 많은 GPU를 단일 서버에 지원하며 이러한 GPU 사이에 완전한 대역폭 연결성을 보장하는 GPU 패브릭이 필요합니다.
NVIDIA NVSwitch는 단일 서버 노드에서 16개의 완전히 연결된 GPU를 지원하는 최초의 온-노드 스위치 아키텍처입니다. 8개의 GPU 쌍에서 각각 300 GB/s 의 놀라운 동시 통신을 지원합니다. 이 16개의 GPU는 0.5 테라바이트의 통합 메모리 공간과 2 페타 플롭의 딥 러닝 컴퓨팅 성능을 갖춘 단일 라지 스케일 가속기로 사용할 수 있습니다. NVSwitch 를 갖춘 단일 HGX-2 / DGX-2 시스템은 인피니밴드를 통해 연결된 2개의 HGX-1 / DGX-1 시스템보다 최대 2.7배 더 높은 어플리케이션 성능을 제공합니다.
2 HGX-1V servers have dual socket Xeon E5 2698v4 Processor, 8X V100 GPUs. Servers connected via 4X 100Gb IB ports (run on DGX-1) . HGX-2 server has dual-socket Xeon Platinum 8168 Processor, 16X V100 GPUs (run on DGX-2).
* ECWMF의 IFS: 통합된 예측 시스템(IFS)은 국제 수치 일기 예보 모델로 영국의 레딩에 기반을 둔 중기 일기예보 유럽 센터(ECMWF)가 개발했습니다. ECMWF는 독립적인 정부 간 조직으로 유럽 대부분 국가의 지원을 받으며, 국제 일기예보의 빈번한 업데이트를 위해 유럽에서 가장 큰 슈퍼컴퓨터 센터 중 하나를 운영하고 있습니다. IFS 미니 앱 벤치마크는 전체 모델 로드 시 컴퓨팅 부하가 매우 심한 사례 중 하나인 구면 조화 함수 변환에 역량을 집중합니다. 여기에 있는 벤치마크 속도 증가치는 저러한 전체 IFS 모델보다 더욱 나은데 이는 벤치마크가 알고리즘의 변환 단계를 디자인 측면에서 증폭했기 때문입니다. 하지만 ECMWF의 매우 효과적이고 증명된 방법은 문제 해결에 적격이기에 이 벤치마크는 NVIDIA의 DGX-2와 같이 NVSwitch를 장착한 서버에서 세계 최고의 예측은 여전히 유효하다는 사실을 증명함으로써 선보였습니다.
* 익스퍼트 혼합체(MoE): Google이 Tensor2Tensor github에 발표한 네트워크를 기반으로 MoE 계층을 도입한 트랜스포머 모델을 사용합니다. MoE 계층은 각각 128개의 익스퍼트로 구성되어 있으며 각 익스퍼트는 작은 피드 포워드 딥 뉴럴 네트워크(DNN)입니다. 각 익스퍼트는 각기 다른 지식 분야에 전문화되었으며 서로 다른 GPU에 분산되어 있습니다. 또한 익스퍼트는 트랜스포머 네트워크 계층과 MoE 계층 간 통신을 하기 때문에 매우 많은 양의 올 투 올 트래픽을 생성합니다. 훈련에 쓰는 데이터세트는 Google에 따르면 "언어 모델링을 위한 10억개의 단어 벤치마크"라고 합니다. 훈련 작업에는 Volta Tensor Core가 사용되며 34에 육박하는 퍼플렉시티 달성을 위해 45,000단계를 실행합니다. 이 워크로드는 GPU당 8,192의 배치 크기를 사용합니다.