MLPerf의 신기록 수립

NVIDIA의 트레이닝 및 추론 솔루션이 AI 성능에 대한 대표적인 업계 벤치마크인 MLPerf에서 성능 신기록을 달성했습니다.

MLPerf란?

MLPerf는 학계, 연구 실험실 및 업계의 AI 리더로 구성된 컨소시엄으로, “공정하고 유용한 벤치마크 구축”을 미션으로 하며 하드웨어, 소프트웨어 및 서비스의 트레이닝과 추론 성능을 모두 규정된 조건에 따라 편견 없이 평가합니다. 최첨단 기술을 지속적으로 유지하기 위해 MLPerf는 발전을 계속하며 정기적으로 새로운 테스트를 시행하고 첨단 AI 기술을 나타내는 새로운 워크로드를 추가하고 있습니다.

샬머스 대학은 스웨덴의 선도적 연구 기관 중 하나로, 나노 기술에서 기후 연구에 이르기까지 여러 분야에 특화되어 있습니다. 연구 활동의 진전을 위해 AI를 통합하는 가운데 MLPerf 벤치마크가 여러 AI 플랫폼에서 투명하고 공정한 비교를 제공하여 다양한 활용 사례에서 실질적인 성능을 선보인다는 것을 알게 되었습니다.

— 스웨덴 샬머스 공과대학

TSMC는 공정 기술 시장을 선도하는 최신 5nm 노드 등으로 글로벌 반도체 제조의 최첨단을 주도하고 있습니다. 기계 학습 기반 리소그래피 및 식각 모델링과 같은 혁신으로 광학 근접 보정(OPC) 및 식각 시뮬레이션 정확도를 크게 높이고 있습니다. 모델 트레이닝 및 추론에서 기계 학습의 잠재력을 완전히 끌어내기 위해 NVIDIA 엔지니어링 팀과 협력하여 맥스웰 시뮬레이션 및 역 리소그래피 기술(ILT) 엔진을 GPU에 이식하여 속도를 크게 향상하였습니다. MLPerf 벤치마크는 저희의 의사 결정에 있어 중요한 요소입니다.

— Danping Peng 박사, 미국 캘리포니아 산호세, TSMC OPC 부서 이사

컴퓨터 비전과 이미징은 AI 연구의 핵심이며, 과학적 발견을 주도하고 의료의 핵심 구성 요소를 손쉽게 표현합니다. 저희는 3DUNet과 같은 혁신을 의료 시장에 제공하기 위해 NVIDIA와 긴밀히 협력했습니다. 특정 프로젝트 및 애플리케이션 작업을 가속화하기 위해 업계 표준 MLPerf 벤치마크는 IT 조직 및 개발자에게 관련 성능 데이터를 제공하여 올바른 솔루션을 얻을 수 있습니다.

— Klaus Maier-Hein 교수, DKFZ(독일 암 연구 센터) 의료 이미지 컴퓨팅 책임자

연구 및 제조 분야의 선두 주자인 삼성은 AI를 활용하여 제품 성능과 제조 생산성을 크게 향상하고 있습니다. 이러한 AI를 활용하기 위해 최고의 컴퓨팅 플랫폼을 사용할 수 있어야 합니다. MLPerf 벤치마크는 플랫폼 전반에 걸쳐 균일하게 평가할 수 있도록 개방적이고 직접적인 평가 방법을 제공함으로써 선택 프로세스를 간소화합니다.

— 삼성전자

MLPerf 제출 부문

MLPerf Training v1.0은 트레이닝용 네 번째 벤치마크이며, 비전, 언어, 추천 시스템 및 강화 학습을 비롯한 매우 다양한 활용 사례를 포함하는 8가지 워크로드로 구성되어 있습니다. 

MLPerf Inference v1.0에서는 7가지 종류의 뉴럴 네트워크에 걸친 7가지 활용 사례를 테스트했습니다. 이러한 활용 사례 중 3가지는 컴퓨터 비전용이고, 1가지는 추천 시스템용, 2가지는 언어 처리용, 1가지는 메디컬 이미징용이었습니다.

이미지 분류

이미지 분류

정해진 범주 집합의 레이블을 입력 이미지에 할당합니다. 즉, 컴퓨터 비전 문제에 적용합니다. 상세 정보.

물체 검출(경량)

물체 검출(경량)

이미지나 영상에서 얼굴, 자전거, 건물 등 실제 물체의 인스턴스를 찾아 각각의 주위에 경계 상자를 지정합니다. 상세 정보.

물체 검출(중량)

물체 검출(중량)

이미지에 나타나는 관심 있는 뚜렷한 물체를 감지하여 각각에 대해 픽셀 마스크를 식별합니다. 상세 정보.

생체 의학 이미지 분할

생체 의학 이미지 분할

의료 응용 사례를 위한 고밀도 3D 이미지의 용적 측정 세분화를 수행합니다. 상세 정보.

번역(순환)

번역(순환)

순환 신경망(RNN)을 사용하여 한 언어에서 다른 언어로 번역합니다. 상세 정보.

번역(비순환)

번역(비순환)

피드 포워드 뉴럴 네트워크를 사용하여 한 언어에서 다른 언어로 번역합니다. 상세 정보.

자동 음성 인식(ASR)

자동 음성 인식(ASR)

오디오를 실시간으로 인식하고 전사합니다. 상세 정보 .

자연어 처리(NLP)

자연어 처리(NLP)

텍스트 블록의 다양한 단어 간 관계를 이용하여 텍스트를 이해합니다. 질문 답변, 문장 의역 및 기타 많은 언어 관련 사용 사례가 허용됩니다. 상세 정보.

추천

추천

소셜 미디어나 전자 상거래 웹 사이트와 같은 사용자 대면 서비스에서 사용자와 서비스 품목(제품 또는 광고 등) 간의 상호 작용을 파악하여 맞춤형 결과를 제공합니다. 상세 정보.

강화 학습

강화 학습

19x19 그리드에서 플레이되는 전략 게임 Go를 사용하여 보상을 최대화하기 위해 가능한 다양한 액션을 평가합니다. 상세 정보.

NVIDIA의 MLPerf 벤치마크 결과

  • 트레이닝

    트레이닝

  • 추론

    추론

NVIDIA A100 Tensor 코어 GPU 및 NVIDIA DGX SuperPOD는 상용 시스템에 대한 칩당 워크로드와 규모에 따른 워크로드 둘 다에서 16개의 모든 트레이닝 성능 기록을 수립했습니다. 이 획기적인 성능은 하드웨어, 소프트웨어 및 시스템 수준 기술의 긴밀한 통합 덕분이었습니다. 전체 스택 성능에 대한 NVIDIA의 지속적인 투자로 네 가지 MLPerf 제출 부문에 걸쳐 처리량이 향상된 것입니다.

MLPerf 2.5년 만에 6.5배 이상으로 성능 향상

NVIDIA의 전체-스택 혁신으로 지속적인 향상 달성

MLPerf 2.5년 만에 6.5배 이상으로 성능 향상

NVIDIA , 16개 기록을 모두 수립

상용 솔루션

NVIDIA AI 플랫폼은 OEM 서버 내 NVIDIA A100 GPU 및 NVIDIA DGX를 사용하여 가속기당 모두 8개의 기록을 세웠습니다. 이는 컴퓨터 제조업체가 MLPerf에서 기록적인 결과를 내도록 지원하는 엔드 투 엔드 NVIDIA 하드웨어 및 소프트웨어 스택의 강점을 여실히 드러냅니다.

  최대 규모 기록(분) 가속기당 기록(분)
추천(DLRM) 0.99(DGX SuperPOD) 15.3(A100)
NLP(BERT) 0.32(DGX SuperPOD) 169.2(A100)
음성 인식- 순환(RNN-T) 2.75(DGX SuperPOD) 309.6(A100)
물체 검출- 중량(Mask R-CNN) 3.95(DGX SuperPOD) 400.2(A100)
물체 검출- 경량(SSD) 0.48(DGX SuperPOD) 66.5(A100)
이미지 분류(ResNet-50 v1.5) 0.4(DGX SuperPOD) 219.0(A100)
이미지 분할(3D-Unet) 3(DGX SuperPOD) 229.1(A100)
강화 학습(MiniGo) 15.53(DGX SuperPOD) 2156.3(A100)

NVIDIA는  모든 시나리오(데이터센터 서버 및 오프라인은 물론 엣지 싱글 스트림, 멀티 스트림 및 오프라인)에서 가장 높은 성능 결과를 달성하였습니다. 또한, 모든 벤치마크 테스트를 거친 모든 제품 중에서 최고의 가속기당 성능을 제공했습니다. 이러한 결과는 NVIDIA의 추론 성능 리더십뿐만 , 아니라 추론 플랫폼의 다용성을 증명해줍니다.

데이터센터 및 엣지에 대한 오프라인 시나리오(단일 GPU)

  NVIDIA A100(x86 CPU)
(추론/초)
NVIDIA A100(Arm CPU)
(추론/초)
NVIDIA A30
(추론/초)
NVIDIA® Jetson Xavier
(최대 추론/쿼리)
DLRM
(권장)
302,680 274,433 135,450 해당 없음
BERT
(자연어 처리)
3,538 3,151 1,673 97
ResNet-50 v1.5
(이미지 분류)
39,190 36,436 18,647 2,039
ResNet-34
(대형 SSD(Single-Shot Detector))
981 901 474 55
RNN-T
(음성 인식)
13,365 12,640 6,574 416
3D U-Net
(메디컬 이미징)
61 57 30 3

기술이 뒷받침된 결과

AI의 복잡성은 플랫폼의 모든 측면에 대한 긴밀한 통합을 요구합니다. MLPerf의 벤치마크에서 입증되었듯이 NVIDIA AI 플랫폼은 세계 최첨단 GPU, 성능과 확장성이 뛰어난 인터커넥트 기술 및 첨단 소프트웨어를 통해 선도적인 성능을 제공합니다. 이러한 종합적인 솔루션을 데이터센터, 클라우드 또는 엣지에 배포하여 놀라운 결과를 얻을 수 있습니다.

AI 워크플로우를 가속화하는 최적화된 소프트웨어

AI 워크플로우를 가속화하는 최적화된 소프트웨어

NVIDIA의 플랫폼과 MLPerf 트레이닝 및 추론 결과의 필수적인 구성 요소인 NGC는 GPU 최적화 AI, 고성능 컴퓨팅(HPC), 그리고 전체 워크플로우를 간소화하고 가속화하는 데이터 분석 소프트웨어를 위한 허브입니다. 대화식 AI추천 시스템에 대한 워크로드를 포함한 150개가 넘는 엔터프라이즈급 컨테이너, 100개가 넘는 모델, 그리고 온프레미스, 클라우드 또는 엣지에 배포할 수 있는 산업별 SDK를 갖춘 NGC를 통해 데이터 사이언티스트, 연구원 및 개발자는 그 어느 때보다도 빠르게 동급 최고의 솔루션을 구축하고, 인사이트를 모으고, 비즈니스 가치를 제공할 수 있습니다.

선도적인 AI 인프라

트레이닝 및 추론에서 세계 최고의 결과를 얻으려면 세계에서 가장 복잡한 AI 과제를 위해 구축된 인프라가 필요합니다. NVIDIA AI 플랫폼은 NVIDIA A100 Tensor 코어 GPU, NVIDIA A30 Tensor 코어 GPU, NVIDIA A10 Tensor 코어 GPU의 성능 및 NVIDIA 인터커넥트 기술인 NVIDIA NVLink®, NVIDIA NVSwitch와 NVIDIA ConnectX®-6 VPI의 확장성과 유연성을 통해 제공됩니다. 이러한 요소는 모두 NVIDIA 벤치마크 성능을 뒷받침하는 엔진인 NVIDIA DGX A100의 핵심을 이룹니다.

NVIDIA DGX 시스템은 확장성, 신속한 배포 기능 및 놀라운 컴퓨팅 성능을 제공해 모든 엔터프라이즈에서 선도적인 AI 인프라를 구축할 수 있도록 합니다.

선도적인 AI 인프라

NVIDIA의 데이터센터 트레이닝 및 추론 제품 성능에 대해 자세히 알아보십시오.