MLPerf의 신기록 수립

NVIDIA의 트레이닝 및 추론 솔루션이 AI 성능에 대한 대표적인 업계 벤치마크인 MLPerf에서 성능 신기록을 달성했습니다.

MLPerf란 무엇입니까?

MLPerf는 학계, 연구 실험실 및 업계의 AI 리더로 구성된 컨소시엄으로, “공정하고 유용한 벤치마크 구축”을 미션으로 하며 하드웨어, 소프트웨어 및 서비스의 트레이닝과 추론 성능을 모두 규정된 조건에 따라 편견 없이 평가합니다. 최첨단 기술을 지속적으로 유지하기 위해 MLPerf는 발전을 계속하며 정기적으로 새로운 테스트를 시행하고 첨단 AI 기술을 나타내는 새로운 워크로드를 추가합니다.

MLPerf 제출 부문

MLPerf Training v0.7은 트레이닝용 세 번째 벤치마크이며, 비전, 언어, 추천 시스템 및 강화 학습을 비롯한 매우 다양한 사용 사례를 포함하는 8가지 워크로드로 구성되어 있습니다.

MLPerf Inference v0.7에서는 7가지 종류의 뉴럴 네트워크에 걸친 5가지 사용 사례를 테스트했습니다. 이러한 이 중 3가지는 컴퓨터 비전에 대한 것이고 하나는 추천 시스템, 2개는 언어 처리, 그리고 하나는 메디컬 이미징에 대한 것입니다.

이미지 분류

이미지 분류

정해진 범주 집합의 레이블을 입력 이미지에 할당합니다. 즉, 자율주행 자동차와 같은 컴퓨터 비전 문제에 적용됩니다. 세부 정보.

개체 감지(경량)

개체 감지(경량)

이미지나 영상에서 얼굴, 자전거, 건물 등 실제 개체의 인스턴스를 찾아 각각의 주위에 경계 상자를 지정합니다. 세부 정보.

개체 감지(중량)

개체 감지(중량)

이미지에 나타나는 관심 있는 뚜렷한 개체를 감지하여 각각에 대해 픽셀 마스크를 식별합니다. 세부 정보.

번역(순환)

번역(순환)

순환 뉴럴 네트워크(RNN)를 사용하여 한 언어에서 다른 언어로 번역합니다. 세부 정보.

번역[비순환]

번역[비순환]

피드 포워드 뉴럴 네트워크를 사용하여 한 언어에서 다른 언어로 번역합니다. 세부 정보.

자연어 처리(NLP)

자연어 처리(NLP)

텍스트 블록의 다양한 단어 간 관계를 이용하여 텍스트를 이해합니다. 질문 답변, 문장 의역 및 기타 많은 언어 관련 사용 사례가 허용됩니다. 세부 정보.

추천

추천

소셜 미디어나 전자 상거래 웹 사이트와 같은 사용자 대면 서비스에서 사용자와 서비스 품목(제품 또는 광고 등) 간의 상호 작용을 파악하여 맞춤형 결과를 제공합니다. 세부 정보.

강화학습

강화학습

19x19 그리드에서 플레이되는 전략 게임 Go를 사용하여 보상을 최대화하기 위해 가능한 다양한 액션을 평가합니다. 세부 정보.

NVIDIA의 MLPerf 벤치마크 결과

  • 트레이닝

    트레이닝

  • 추론

    추론

NVIDIA A100 Tensor Core GPU 및 NVIDIA DGX SuperPOD는 상용 시스템에 대한 칩당 워크로드와 규모에 따른 워크로드 둘 다에서 16개의 모든 트레이닝 성능 기록을 수립했습니다. 이 획기적인 성능은 하드웨어, 소프트웨어 및 시스템 수준 기술의 긴밀한 통합 덕분이었습니다. 전체 스택 성능에 대한 NVIDIA의 지속적인 투자로 세 가지 MLPerf 제출 부문에 걸쳐 처리량이 향상된 것입니다.

MLPerf 1년 반 만에 최대 4배의 성능 향상

NVIDIA의 전체 스택 혁신으로 지속적인 향상 달성

MLPerf 1년 반 만에 최대 4배의 성능 향상

NVIDIA , 16개 기록을 모두 수립

상용 솔루션

  최대 규모 기록 가속기당 기록
추천(DLRM) 3.33 분 0.44 시간
NLP (BERT) 0.81 분 6.53 시간
강화 학습(MiniGo) 17.07 분 39.96 시간
번역(비순환)(트랜스포머) 0.62 분 1.05 시간
번역(순환)(GNMT) 0.71 분 1.04 시간
개체 감지(중량)(Mask R-CNN) 10.46 분 10.95 시간
개체 감지(경량)(SSD) 0.82 분 1.36 시간
이미지 분류(ResNet-50 v1.5) 0.76 분 5.30 시간

NVIDIA는 5개의 시나리오(서버, 오프라인, 엣지 싱글 스트림 및 멀티 스트림) 모두에서 최고의 결과를 달성했습니다. 또한, 5가지 벤치마크 테스트 모두에 걸쳐 상용 제품 중에서 최고의 가속기 성능을 제공합니다. 이러한 결과는 NVIDIA의 추론 성능 분야 리더십뿐만 아니라 추론 플랫폼의 다용성을 증명해줍니다.

데이터센터 및 엣지에 대한 서버 시나리오

NVIDIA Turing 아키텍처

  NVIDIA T4
(추론/초)
NVIDIA A100
(추론/초)
NVIDIA® Jetson Xavier
(최대 추론/쿼리)
DLRM
(추천 시스템)
34,052 264,189 N/A
BERT
(자연어 처리)
437 3,328 91
ResNet-50 v1.5
(이미지 분류)
6,112 37,331 2,075
MobileNet-v1
(Small Single Shot Detector)
995 6,401 2,533
ResNet-34
(Large Single Shot Detector)
139 974 51
RNN-T
(음성 인식)
1,495 10,300 419
3D U-Net
(메디컬 이미징)/td>
7 42 2.3

기술이 뒷받침된 결과

AI의 복잡성은 플랫폼의 모든 측면에 대한 긴밀한 통합을 요구합니다. MLPerf의 벤치마크에서 입증되었듯이 NVIDIA AI 플랫폼은 세계 최첨단 GPU, 성능과 확장성이 뛰어난 상호 연결 기술 및 첨단 소프트웨어를 통해 선도적인 성능을 제공합니다. 이러한 종합적인 솔루션을 데이터센터, 클라우드 또는 엣지에 배포하여 놀라운 결과를 얻을 수 있습니다.

AI 워크플로우를 가속화하는 최적화된 소프트웨어

AI 워크플로우를 가속화하는 최적화된 소프트웨어

NVIDIA의 플랫폼과 MLPerf 트레이닝 및 추론 결과의 필수적인 구성 요소인 NGC는 GPU 최적화 AI, 고성능 컴퓨팅(HPC), 그리고 전체 워크플로우를 간소화하고 가속화하는 데이터 분석 소프트웨어를 위한 허브입니다. 대화식 AI추천 시스템에 대한 워크로드를 포함한 150개가 넘는 엔터프라이즈급 컨테이너, 100개가 넘는 모델, 그리고 온프레미스, 클라우드 또는 엣지에 배포할 수 있는 산업별 SDK를 갖춘 NGC를 통해 데이터 사이언티스트, 연구원 및 개발자는 그 어느 때보다도 빠르게 동급 최고의 솔루션을 구축하고, 인사이트를 모으고, 비즈니스 가치를 제공할 수 있습니다.

선도적인 AI 인프라 구축

트레이닝 및 추론에서 세계 최고의 결과를 얻으려면 세계에서 가장 복잡한 AI 과제를 위해 구축된 인프라가 필요합니다. NVIDIA AI 플랫폼은 NVIDIA A100 Tensor Core GPU, NVIDIA T4 Tensor Core GPU의 성능 및 NVIDIA 상호 연결 기술인 NVLink®, NVSwitch와 Mellanox ConnectX-6 VPI의 확장성과 유연성을 통해 제공됩니다. 이러한 요소는 모두 NVIDIA 벤치마크 성능을 뒷받침하는 엔진인 NVIDIA DGX A100의 핵심을 이룹니다.

NVIDIA DGX 시스템은 확장성, 신속한 배포 기능 및 놀라운 컴퓨팅 성능을 제공해 모든 엔터프라이즈에서 선도적인 AI 인프라를 구축할 수 있도록 합니다.

선도적인 AI 인프라 구축

NVIDIA의 데이터센터 트레이닝 및 추론 제품 성능에 대해 자세히 알아보십시오.