MLPerf の基準
を塗り替える

NVIDIA のトレーニングおよび推論ソリューションは、業界をリードする AI パフォーマンスのベンチマークである MLPerf の記録を塗り替えるパフォーマンスを提供します。

MLPerf とは?

MLPerf は、「公平かつ有用なベンチマークを作る」ことを目指した学界、研究機関、業界の AI リーダーたちによるコンソーシアムで、ハードウェア、ソフトウェア、サービスのトレーニングおよび推論のパフォーマンスに対し公正な評価を提供します。この評価はすべて、規定された条件下で行われます。業界のトレンドの最先端を走り続けるため、MLPerf は継続的に進化し、新しいテストを定期的に実施して、最新の AI を体現する新しいワークロードを追加しています。

MLPerf 検証カテゴリ

MLPerf Training v0.7 はトレーニングとして 3 番目に具体化したもので、映像、言語、レコメンダー、強化学習などのさまざまなユースケースを対象とする 8 種の異なるワークロードで構成されています。

MLPerf Inference v0.5 では、異なる 5 種のニューラル ネットワークで、異なる 3 つのユースケースをテストしました。これらのユースケースのうち 4 つはコンピューター ビジョン関連で、残る 1 つは言語翻訳関連でした。

画像の分類

画像の分類

入力画像に、決められた一連のカテゴリからラベルを割り当て、自動運転車などのコンピューター ビジョンの問題に適用します。 詳細

物体検出 (軽)

物体検出 (軽)

画像や動画内の顔、自転車、建物など、現実世界の物体のインスタンスを見つけ、それぞれの周囲に境界ボックスを指定します。詳細

物体検出 (重)

物体検出 (重)

画像に現れる、対象の個別のオブジェクトを検出し、それぞれのピクセル マスクを識別します。詳細

翻訳 (リカレント)

翻訳 (リカレント)

リカレント ニューラル ネットワーク (RNN) を使用して、ある言語から別の言語にテキストを翻訳します。詳細

翻訳 (非リカレント)

翻訳 (非リカレント)

フィードフォワード ニューラル ネットワークを使用して、ある言語から別の言語にテキストを翻訳します。詳細

自然言語処理 (NLP)

自然言語処理 (NLP)

ひとかたまりのテキスト中のさまざまな単語間の関係を使用してテキストを認識します。質問への回答、文の言い換え、その他のさまざまな言語関連のユースケースを実現します。詳細

レコメンデーション

レコメンデーション

ユーザーと、製品や広告などのサービス アイテムとのやりとりを理解することで、ソーシャル メディアや E コマース ウェブサイトなどのユーザー向けサービスでパーソナライズされた内容を提供します。詳細

強化学習

強化学習

19x19 の盤面で対局する囲碁を使用して、さまざまな手を評価し、戦略的効果を最大に高めます。詳細

NVIDIA の MLPerf ベンチマークの結果

  • トレーニング

    トレーニング

  • 推論

    推論

NVIDIA A100 Tensor コア GPU と NVIDIA DGX SuperPOD は、16 のトレーニングすべてにおいて、市販システム向けのチップあたりのワークロードと大規模ワークロードの両方でパフォーマンス記録を更新しました。この画期的なパフォーマンスは、ハードウェア、ソフトウェア、システムレベルのテクノロジの緊密な統合が生み出しました。NVIDIA はフルスタック パフォーマンスに対し継続的な投資を行ってきましたが、これが 3 つの MLPerf 検証でのスループット改善につながりました。

MLPerf の 1 年半の期間でパフォーマンスを最大 4 倍に

NVIDIA のフルスタック イノベーションにより、継続的な改善を実現

MLPerf の 1 年半の期間でパフォーマンスを最大 4 倍に

NVIDIA が 16 の記録を更新

市販ソリューション向け

  最大スケールの記録 アクセラレータごとの記録
レコメンデーション (DLRM) 3.33 分 0.44 時間
NLP (BERT) 0.81 分 6.53 時間
強化学習 (MiniGo) 17.07 分 39.96 時間
翻訳 (非リカレント) (Transformer) 0.62 分 1.05 時間
翻訳 (リカレント) (GNMT) 0.71 分 1.04 時間
物体検出 (重) (Mask R-CNN) 10.46 分 10.95 時間
物体検出 (軽) (SSD) 0.82 分 1.36 時間
画像の分類 (ResNet-50 v1.5) 0.76 分 5.30 時間

NVIDIA は、4 つのシナリオ (サーバー、オフライン、シングルストリーム、マルチストリーム) のすべてで最高の結果を実現します。また、市販の製品を対象とする 5 つのベンチマーク テストすべてにおいて、アクセラレータあたりで最高のパフォーマンスを提供します。これらの結果は、推論パフォーマンスにおける NVIDIA のリーダーシップだけではなく、当社の推論プラットフォームの汎用性を証明しています。

データ センターとエッジのサーバー シナリオ

NVIDIA Turing アーキテクチャ

  NVIDIA T4
(推論/秒)
NVIDIA TITAN RTX
(推論/秒)
NVIDIA Jetson Xavier
(最大推論/クエリ)
MobileNet-v1 16,884 47,775 302
ResNet-50 v1.5 5,193 15,008 100
SSD MobileNet-v1 7,078 20,501 102
SSD ResNet-34 126 338 2
GNMT 198 645 該当なし

結果の背後にあるテクノロジ

AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつスケーラブルな相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。

AI ワークフローを加速する最適化されたソフトウェア

AI ワークフローを加速する最適化されたソフトウェア

NVIDIA プラットフォームと MLPerf トレーニングおよび推論の成果に欠かせない要素である NGC は、GPU に最適化された AI、HPC (ハイ パフォーマンス コンピューティング)、データ分析ソフトウェアをまとめたもので、エンドツーエンドのワークフローを簡素化および高速化します。対話型 AIレコメンダー システムのワークロードなど 150 以上のエンタープライズグレードのコンテナー、100 以上のモデル、オンプレミス、クラウド、エッジにデプロイ可能な業界に特化した SDK を持つ NGC により、データ サイエンティスト、研究者、開発者は、これまでにない素早さでクラス最高のソリューション構築やインサイト収集を行い、ビジネスの価値を提供できるようになります。

業界トップクラスの AI インフラストラクチャ

トレーニングと推論において世界をリードする結果を得るには、世界で最も複雑な AI の課題に特化して構築されたインフラストラクチャが必要です。NVIDIA AI プラットフォームは、 NVIDIA A100 Tensor コア GPUNVIDIA T4 Tensor コア GPU のパワー、NVIDIA 相互接続テクノロジ NVLink® および NVSwitch のスケーラビリティと柔軟性、そして Mellanox ConnectX-6 VPI を使用して提供されます。これらは NVIDIA のベンチマークにおけるパフォーマンスを支えるエンジン、NVIDIA DGX A100 の中核を成しています。

NVIDIA DGX Systems は、あらゆる企業が業界トップクラスの AI インフラストラクチャを構築可能なスケーラビリティ、迅速なデプロイ、驚異的なコンピューティング パワーを提供します。

業界トップクラスの AI インフラストラクチャ

NVIDIA のデータ センター トレーニングおよび推論製品のパフォーマンスの詳細をご覧ください。