MLPerf の基準を塗り替える

NVIDIA のトレーニングおよび推論ソリューションは、業界をリードする AI パフォーマンスのベンチマークである MLPerf の記録を塗り替えるパフォーマンスを提供します。

MLPerf とは?

MLPerf は、「公平かつ有用なベンチマークを作る」ことを目指した学界、研究機関、業界の AI リーダーたちによるコンソーシアムで、ハードウェア、ソフトウェア、サービスのトレーニングおよび推論のパフォーマンスに対し公正な評価を提供します。この評価はすべて、規定された条件下で行われます。業界のトレンドの最先端を走り続けるため、MLPerf は継続的に進化し、新しいテストを定期的に実施して、最新の AI を示す新しいワークロードを追加しています。

チャルマース工科大学は、スウェーデンをリードする研究機関であり、ナノテクノロジから気候研究まで、さまざまな分野に特化しています。AI を取り入れて研究を進める中で、 MLPerf ベンチマークは、複数の AI プラットフォームを透明性のある同一条件で比較を行い、実世界の多様な用途における実際のパフォーマンスを示すことがわかりました

— スウェーデンのチャルマース工科大学

TSMC は、プロセス テクノロジで市場をリードしている最新の 5nm ノードのように、世界の最新の半導体製造を加速しています。リソグラフィーやエッチング モデリングをベースとする機械学習などのイノベーションは、OPC (Optical Proximity Correction/光近接効果補正) とエッチング シミュレーションの精度を飛躍的に向上しています。モデル トレーニングと推論における機械学習の可能性を完全に引き出すために、NVIDIA エンジニアリング チームと協力し、Maxwell シミュレーションと ILT (Inverse Lithography Technology/逆変換露光技術) エンジンを GPU に移植し、大幅なスピードアップを実現しています。MLPerf ベンチマークは、当社の意志決定における重要な要素です

— TSMC (米国カリフォルニア州サンノゼ) OPC 部門ディレクター、Danping Peng 博士

コンピュータ ビジョンとイメージングは AI 研究の中核であり、科学的発見を推進し、医療ケアの中心的存在になっています。当センターでは NVIDIA と協力して、3DUNet などのイノベーションをヘルスケア市場に導入しています。業界標準の MLPerf ベンチマークは、IT 組織や開発者が特定のプロジェクトやアプリケーションを高速化するための適切なソリューションを得るために必要な関連性のあるパフォーマンス データを提供します。

— Deutsches Krebsforschungszentrum (DKFZ/ドイツ癌研究センター) の医用画像コンピューティング部門リーダー、Klaus Maier-Hein 博士

研究と製造で世界をリードする Samsung は、AI を利用し製品のパフォーマンスと製造生産性を飛躍的に向上させています。AI の最新テクノロジを製品化するには、最高のコンピューティング プラットフォームが必要です。MLPerf ベンチマークは、さまざまなプラットフォームを同じ条件で評価するオープンで直接的なメソッドを提供するため、選択プロセスを合理化します。

— サムスン電子

MLPerf 検証カテゴリ

MLPerf Training v1.0 は、第 4 ラウンド目のトレーニング ベンチマークです。映像、言語、レコメンダー、強化学習などのさまざまなユースケースを対象とする 8 種の異なるワークロードで構成されています。 

MLPerf Inference v1.0 では、7 種類のニューラル ネットワークで 7 つの異なるユースケースをテストしました。それらのユースケースのうち、 3 つはコンピューター ビジョン、1 つはリコメンダー システム、2 つは言語処理、1 つは医用画像処理でした。

画像分類

画像分類

入力された画像に、決められた一連のカテゴリからラベルを割り当てます。コンピューター ビジョンの問題に応用されます。詳細

物体検出 (軽)

物体検出 (軽)

画像や動画内の顔、自転車、建物など、実在する物体のインスタンスを見つけ、それぞれの周囲にバウンディング ボックスを指定します。詳細

物体検出 (重)

物体検出 (重)

画像に現れる、対象の個別のオブジェクトを検出し、それぞれのピクセル マスクを識別します。詳細

生物医学画像セグメンテーション

生物医学画像セグメンテーション

医療用途の密な 3D 画像でボリュームセグメンテーションを実行します。 詳細

翻訳 (リカレント)

翻訳 (リカレント)

リカレント ニューラル ネットワーク (RNN) を使用して、ある言語から別の言語にテキストを翻訳します。詳細

翻訳 (非リカレント)

翻訳 (非リカレント)

フィードフォワード ニューラル ネットワークを使用して、ある言語から別の言語にテキストを翻訳します。詳細

自動音声認識 (ASR)

自動音声認識 (ASR)

音声をリアルタイムで認識し、書き起こします。詳細

自然言語処理 (NLP)

自然言語処理 (NLP)

ひとかたまりのテキスト中のさまざまな単語間の関係を使用してテキストを認識します。質問への回答、文の言い換え、その他のさまざまな言語関連のユースケースを可能にします。詳細

レコメンデーション

レコメンデーション

ユーザーと、製品や広告などのサービス アイテムとのやりとりを理解することで、ソーシャル メディアや E コマース ウェブサイトなどのユーザー向けサービスでパーソナライズされた内容を提供します。詳細

強化学習

強化学習

19x19 の盤面で対局する囲碁を使用して、さまざまな手を評価し、戦略的効果を最大に高めます。詳細

NVIDIA の MLPerf ベンチマークの成果

  • トレーニング

    トレーニング

  • 推論

    推論

NVIDIA A100 Tensor コア GPU と NVIDIA DGX SuperPOD は、16 のトレーニングすべてにおいて、市販システム向けのチップあたりのワークロードと大規模ワークロードの両方でパフォーマンス記録を更新しました。この画期的なパフォーマンスは、ハードウェア、ソフトウェア、システムレベルのテクノロジの緊密な統合が生み出しました。NVIDIA はフルスタック パフォーマンスに対し継続的な投資を行ってきましたが、これが 4 つの MLPerf 検証でのスループット改善につながりました。

MLPerf の 2 年半の期間でパフォーマンスが 6.5 倍以上に

NVIDIA のフルスタック イノベーションにより、継続的な改善を実現

MLPerf の 2 年半の期間でパフォーマンスが  6.5 倍以上に

NVIDIA が 16 の全ての記録を更新

市販ソリューション向け

NVIDIA AI プラットフォームは、NVIDIA DGX だけでなく、OEM サーバーに搭載された NVIDIA A100 GPU を使用し、アクセラレータごとの記録を 8 つすべて更新しました。これは、コンピューター メーカーが MLPerf で記録した結果を提供することを可能にする、エンドツーエンド NVIDIA ハードウェア/ソフトウェア スタックの強みを見せるものです。

  最大スケールの記録 (分) アクセラレータごとの記録 (分)
レコメンデーション (DLRM) 0.99 (DGX SuperPOD) 15.3 (A100)
NLP (BERT) 0.32 (DGX SuperPOD) 169.2 (A100)
音声認識 - リカレント (RNN-T) 2.75 (DGX SuperPOD) 309.6 (A100)
物体検出 - 重 (Mask R-CNN) 3.95 (DGX SuperPOD) 400.2 (A100)
物体検出 - 軽 (SSD) 0.48 (DGX SuperPOD) 66.5 (A100)
画像分類 (ResNet-50 v1.5) 0.4 (DGX SuperPOD) 219.0 (A100)
画像セグメンテーション (3D-Unet) 3 (DGX SuperPOD) 229.1 (A100)
強化学習 (MiniGo) 15.53 (DGX SuperPOD) 2156.3 (A100)

NVIDIA はすべてのシナリオ (データ センター サーバーとオフライン、ならびにエッジ シングルストリーム、マルチストリーム、オフライン) で最高のパフォーマンス結果を達成しました。また、すべての製品を対象とするベンチマーク テストすべてにおいて、アクセラレータあたりで最高のパフォーマンスを実現しました。これらの結果は、推論パフォーマンスにおける NVIDIA のリーダーシップだけではなく、NVIDIA の推論プラットフォームの汎用性の高さを証明しています。

データ センターとエッジのオフライン シナリオ (単一の GPU)

  NVIDIA A100 (x86 CPU)
(推論/秒)
NVIDIA A100 (Arm CPU)
(推論/秒)
NVIDIA A30
(推論/秒)
NVIDIA® Jetson Xavier
(最大推論/クエリ)
DLRM
(レコメンダー)
302,680 274,433 135,450 N/A*
BERT
(自然言語処理)
3,538 3,151 1,673 97
ResNet-50 v1.5
(画像分類)
39,190 36,436 18,647 2,039
ResNet-34
(大規模な Single-Shot Detector)
981 901 474 55
RNN-T
(音声認識)
13,365 12,640 6,574 416
3D U-Net
(医用画像処理)
61 57 30 3

成果の背後にあるテクノロジ

AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつスケーラブルな相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。

AI ワークフローを加速する最適化されたソフトウェア

AI ワークフローを加速する最適化されたソフトウェア

NVIDIA プラットフォームと MLPerf トレーニングおよび推論の成果に欠かせない要素である NGC は、GPU に最適化された AI、HPC (ハイ パフォーマンス コンピューティング)、データ分析ソフトウェアをまとめたもので、エンドツーエンドのワークフローを簡素化および高速化します。対話型 AIレコメンダー システムのワークロードなど 150 以上のエンタープライズ品質のコンテナー、100 以上のモデル、オンプレミス、クラウド、エッジにデプロイ可能な業界に特化した SDK を持つ NGC により、データ サイエンティスト、研究者、開発者は、これまでにない素早さでクラス最高のソリューション構築やインサイト収集を行い、ビジネスの価値を提供できるようになります。

業界トップクラスの AI インフラストラクチャ

トレーニングと推論において世界をリードする結果を得るには、世界で最も複雑な AI の課題に特化して構築されたインフラストラクチャが必要です。NVIDIA AI プラットフォームは、 NVIDIA A100 Tensor コア GPU、NVIDIA A30 Tensor コア GPUNVIDIA A10 Tensor コア GPU のパワーと、NVIDIA NVLink®、NVIDIA NVSwitch、NVIDIA ConnectX®-6 VPI といった NVIDIA 相互接続テクノロジの拡張性および柔軟性を利用して提供されます。これらは NVIDIA のベンチマークにおけるパフォーマンスを支えるエンジン、NVIDIA DGX A100 の中核を成しています。

NVIDIA DGX システムは、あらゆる企業が業界トップクラスの AI インフラストラクチャを構築可能なスケーラビリティ、迅速なデプロイ、驚異的なコンピューティング パワーを提供します。

業界トップクラスの AI インフラストラクチャ

NVIDIA のデータ センター トレーニングおよび推論製品のパフォーマンスの詳細をご覧ください。