MLPerf ベンチマーク

NVIDIA のトレーニングおよび推論ソリューションは、業界をリードする AI パフォーマンスのベンチマークである MLPerf の記録を塗り替えるパフォーマンスを提供します。

MLPerf とは?

MLPerf は、「公平かつ有用なベンチマークを作る」ことを目指した学界、研究機関、業界の AI リーダーたちによるコンソーシアムで、ハードウェア、ソフトウェア、サービスのトレーニングおよび推論のパフォーマンスに対し公正な評価を提供します。この評価はすべて、規定された条件下で行われます。業界のトレンドの最先端を走り続けるため、MLPerf は継続的に進化し、新しいテストを定期的に実施して、最新の AI を体現する新しいワークロードを追加しています。

チャルマース工科大学は、スウェーデン有数の研究機関であり、ナノテクノロジから気候研究まで、さまざまな分野に特化しています。AI を取り入れて研究を進める中で、 MLPerf ベンチマークは、複数の AI プラットフォームを透明性のある同一条件で比較を行い、実世界の多様な用途における実際のパフォーマンスを示すことがわかりました

— スウェーデンのチャルマース工科大学

TSMC は、プロセス テクノロジで市場をリードしている最新の 5nm ノードのように、世界の最新の半導体製造を加速しています。リソグラフィーやエッチング モデリングをベースとする機械学習などのイノベーションは、OPC (Optical Proximity Correction/光近接効果補正) とエッチング シミュレーションの精度を飛躍的に向上しています。モデル トレーニングと推論における機械学習の可能性を完全に引き出すために、NVIDIA エンジニアリング チームと協力し、Maxwell シミュレーションと ILT (Inverse Lithography Technology/逆変換露光技術) エンジンを GPU に移植し、大幅なスピードアップを実現しています。MLPerf ベンチマークは、当社の意志決定における重要な要素です

— TSMC (米国カリフォルニア州サンノゼ) OPC 部門ディレクター、Danping Peng 博士

コンピュータ ビジョンとイメージングは AI 研究の中核であり、科学的発見を推進し、医療ケアの中心的存在になっています。当センターでは NVIDIA と協力して、3DUNet などのイノベーションをヘルスケア市場に導入しています。業界標準の MLPerf ベンチマークは、IT 組織や開発者が特定のプロジェクトやアプリケーションを高速化するための適切なソリューションを得るために必要な関連性のあるパフォーマンス データを提供します。

— Deutsches Krebsforschungszentrum (DKFZ/ドイツ癌研究センター) の医用画像コンピューティング部門リーダー、Klaus Maier-Hein 博士

研究と製造で世界をリードする Samsung は、AI を利用し製品のパフォーマンスと製造生産性を飛躍的に向上させています。AI の最新テクノロジを製品化するには、最高のコンピューティング プラットフォームが必要です。MLPerf ベンチマークは、さまざまなプラットフォームを同じ条件で評価するオープンで直接的なメソッドを提供するため、選択プロセスを合理化します。

— サムスン電子

MLPerf 検証カテゴリ

MLPerf Training は、ビジョン、言語、レコメンダー、強化学習などのさまざまなユースケースを対象とする 8 種類のワークロードで構成されています。

MLPerf Inference では、7 種類のニューラル ネットワークで 7 つの異なるユースケースをテストします。そのうち 3 つのユースケースは、コンピューター ビジョン、1 つはレコメンダー システム、2 つは言語処理、1 つは医用画像です。

画像分類

画像分類

入力された画像に、決められた一連のカテゴリからラベルを割り当てます。コンピューター ビジョンの問題に応用されます。詳細

物体検出 (軽)

物体検出 (軽)

画像や動画内の顔、自転車、建物など、現実世界の物体のインスタンスを見つけ、それぞれの周囲に境界ボックスを指定します。詳細

物体検出 (重)

物体検出 (重)

画像に現れる、対象の個別のオブジェクトを検出し、それぞれのピクセル マスクを識別します。詳細

生物医学画像セグメンテーション

生物医学画像セグメンテーション

医療用途の密な 3D 画像でボリューム セグメンテーションを実行します。 詳細

翻訳 (リカレント)

翻訳 (リカレント)

リカレント ニューラル ネットワーク (RNN) を使用して、ある言語から別の言語にテキストを翻訳します。詳細

自動音声認識 (ASR)

自動音声認識 (ASR)

音声をリアルタイムで認識し、書き起こします。詳細

自然言語処理 (NLP)

自然言語処理 (NLP)

ひとかたまりのテキスト中のさまざまな単語間の関係を使用してテキストを認識します。質問への回答、文の言い換え、その他のさまざまな言語関連のユースケースを実現します。詳細

レコメンデーション

レコメンデーション

ユーザーと、製品や広告などのサービス アイテムとのやりとりを理解することで、ソーシャル メディアや E コマース ウェブサイトなどのユーザー向けサービスでパーソナライズされた内容を提供します。詳細

強化学習

強化学習

19x19 の盤面で対局する囲碁を使用して、さまざまな手を評価し、戦略的効果を最大に高めます。詳細

NVIDIA の MLPerf ベンチマークの結果

  • トレーニング

    トレーニング

  • 推論

    推論

NVIDIA A100 Tensor コア GPU と NVIDIA DGX SuperPOD は、16 のトレーニングすべてにおいて、チップあたりのワークロードと大規模ワークロードの両方でパフォーマンス記録を更新しました。この画期的なパフォーマンスと、4 つの MLPerf サブミッションに対するスループットの向上は、ハードウェア、ソフトウェア、システムレベルのテクノロジの緊密な統合と、NVIDIA によるフルスタック パフォーマンスへの継続的な投資によって実現したものです。この NVIDIA プラットフォームは、パフォーマンスとユーザビリティの両方に優れており、データセンターからエッジ、クラウドまでに向けた、単一のリーダーシップ プラットフォームを提供します。

MLPerf の 3 年間でパフォーマンスが 20 倍以上に

NVIDIA のフルスタック イノベーションにより、継続的な改善を実現

MLPerf トレーニング パフォーマンス ベンチマーク

NVIDIA が 16 の記録をすべて更新

市販されているソリューションの場合

NVIDIA AI プラットフォームは、NVIDIA DGX だけでなく、OEM サーバーに搭載された NVIDIA A100 GPU を使用し、アクセラレータごとの記録を 8 つすべて更新しました。これは、コンピューター メーカーが MLPerf で記録した結果を提供することを可能にする、エンドツーエンド NVIDIA ハードウェア/ソフトウェア スタックの強みを見せるものです。

ベンチマーク 大規模の記録 (分) アクセラレータごとの記録 (分)
レコメンデーション (DLRM) 0.63 (DGX SuperPOD) 13.5 (A100)
NLP (BERT) 0.24 (DGX SuperPOD) 155.1 (A100)
音声認識 - リカレント (RNN-T) 2.38 (DGX SuperPOD) 267.0 (A100)
物体検出 - 重 (Mask R-CNN) 3.24 (DGX SuperPOD) 335.1 (A100)
物体検出 - 軽 (SSD) 0.45 (DGX SuperPOD) 63.8 (A100)
画像分類 (ResNet-50 v1.5) 0.35 (DGX SuperPOD) 220.5 (A100)
画像セグメンテーション (3D-Unet) 1.26 (Microsoft Azure NDm A100 v4) 187.7 (A100)
強化学習 (MiniGo) 15.47 (DGX SuperPOD) 1805.2 (A100)

NVIDIA はすべてのシナリオ (データ センター サーバーとオフライン、ならびにエッジ シングルストリーム、マルチストリーム、オフライン) で最高のパフォーマンス結果を達成しました。また、すべての製品を対象とするベンチマーク テストすべてにおいて、アクセラレータあたりで最高のパフォーマンスを実現しました。これらの結果は、推論パフォーマンスにおける NVIDIA のリーダーシップだけではなく、NVIDIA の推論プラットフォームの汎用性を証明しています。

データ センターとエッジのオフライン シナリオ (単一の GPU)

  NVIDIA A100 (x86 CPU)
(推論/秒)
NVIDIA A100 (Arm CPU)
(推論/秒)
NVIDIA A30
(推論/秒)
NVIDIA® Jetson Xavier
(最大推論/クエリ)
DLRM
(レコメンダー)
312,380 281,283 138,194 N/A*
BERT
(自然言語処理)
3,490 3,149 1,668 476
ResNet-50 v1.5
(画像の分類)
39,160 36,487 18,406 6,139
ResNet-34
(大規模な Single-Shot Detector)
990 906 478 208
RNN-T
(音声認識)
13,344 13,188 6,557 1,110
3D U-Net
(医用画像処理)
3 3 2 0.5

成果の背後にあるテクノロジ

AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつスケーラブルな相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。

NVIDIA NGC の学習済みモデルと最適化されたソフトウェア

AI ワークフローを加速する最適化されたソフトウェア

NVIDIA プラットフォームと MLPerf トレーニングおよび推論の成果に欠かせない要素である NGC は、GPU に最適化された AI、HPC (ハイ パフォーマンス コンピューティング)、データ分析ソフトウェアをまとめたもので、エンドツーエンドのワークフローを簡素化および高速化します。対話型 AIレコメンダー システムのワークロードなど 150 以上のエンタープライズグレードのコンテナー、100 以上のモデル、オンプレミス、クラウド、エッジにデプロイ可能な業界に特化した SDK を持つ NGC により、データ サイエンティスト、研究者、開発者は、これまでにない素早さでクラス最高のソリューション構築やインサイト収集を行い、ビジネスの価値を提供できるようになります。

業界トップクラスの AI インフラストラクチャ

トレーニングと推論において世界をリードする結果を得るには、世界で最も複雑な AI の課題に特化したインフラストラクチャが必要です。NVIDIA AI プラットフォームは、NVIDIA A100 Tensor コア GPU、NVIDIA A30 Tensor コア GPUNVIDIA A2 Tensor コア GPUJetson AGX Orin モジュール のパワーと、NVIDIA NVLink®、NVIDIA NVSwitch、NVIDIA ConnectX®-6 VPI といった NVIDIA 相互接続テクノロジの拡張性および柔軟性を利用して提供されます。これらは NVIDIA のベンチマークにおけるパフォーマンスを支えるエンジン、NVIDIA DGX™ A100 の中核を成しています。

NVIDIA DGX システムは、あらゆる企業が業界トップクラスの AI インフラストラクチャを構築できるよう、拡張性、迅速なデプロイ、驚異的な演算能力を実現します。

NVIDIA Tensor コア GPU

NVIDIA のデータ センター トレーニングおよび推論製品のパフォーマンスの詳細をご覧ください。