NVIDIA Tensor コア

HPC と AI のための前例のない高速化

Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで正確さを維持しながらスループットを加速します。この最新世代では、あらゆるワークロードの範囲にこの高速化が拡張されます。NVIDIA Tensor コアはあらゆるワークロードに新しい能力を与えます。革新的な新精度、Tensor Float 32 (TF32) は AI トレーニングを 10 倍スピードアップし、FP64 ではハイ パフォーマンス コンピューティング (HPC) を 2.5 倍高速化します。

革新的なディープラーニング トレーニング

革新的なディープラーニング トレーニング

高性能な対話型 AI やディープ リコメンダー システムなど、次のレベルの課題に挑む AI モデルは爆発的に複雑化し続けています。Megatron のような対話型 AI モデルは、ResNet-50 のような画像分類モデルに比べ、何百倍も大きく、複雑です。そのような大規模なモデルを FP32 精度でトレーニングすると、何日も、さらには何週間もかかることがあります。NVIDIA GPU の Tensor コアでは、TF32 や FP16 のようにコンパクトな数値データ型で桁違いに高いパフォーマンスを提供します。そして NVIDIA CUDA-X ライブラリ によってネイティブ フレームワークで直接サポートされるため、 実装は自動的に行われます。それにより、精度を維持しながらトレーニングから収束までの時間が劇的に短縮されます。

Tensor コアにより、AI 業界初のトレーニング用ベンチマーク、MLPerf 0.6 で NVIDIA が最高記録達成。

ディープラーニング推論の飛躍

ディープラーニング推論の飛躍

優れた AI 推論アクセラレータは、パフォーマンスに優れているだけでなく、さまざまなニューラル ネットワークを加速するという多様性があります。また、開発者はプログラミングで新しいニューラル ネットワークを構築できます。GPU 使用率を最大化しながら高スループットと低遅延を実現することは、AI 推論の確実な展開のために、最も重要なパフォーマンス要件となります。NVIDIA Tensor コアはあらゆる精度に対応しています。TF32、bfloat16、FP16、INT8、INT4 が与える多様性とパフォーマンスには並ぶものがありません。 

Tensor コアにより、AI 業界初の推論用ベンチマーク、MLPerf Inference 0.5 で NVIDIA が最高記録達成

高度なハイパフォーマンス コンピューティング

高度なハイパフォーマンス コンピューティング

HPC は現代科学を支える柱です。次世代の新しい技術を開発するために、サイエンティストたちは複雑な分子に対する理解度を上げるべく、シミュレーションを利用します。そのシミュレーションによって薬を発見したり、物理学からエネルギー源の可能性を探ったり、大気データから極端な天候パターンを今までより高い精度で予測し、それに備えたりします。NVIDIA Tensor は FP64 など、あらゆる精度に対応しており、最高の正確さが求められる科学コンピューティングを加速します。

この NVIDIAHPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールの包括的なスイートです。

A100 Tensor コア

第 3 世代

NVIDIA Tensor コア テクノロジは AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速させます。NVIDIA Ampereアーキテクチャは、大幅なパフォーマンスの向上を実現し、研究者が必要とするすべての領域 — TF32、FP64、FP16、INT8、INT4 - をカバーする新しい精度を提供します。これにより、AI の短期間で簡単に導入でき、NVIDIA Tensor コアの性能が HPC にもたらされます。

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

AI のネットワークとデータセットが爆発的に増加していますが、それに必要な計算処理能力要件も同様に上がっています。精度を下げることで大幅な高速化が可能になりましたが、今まではコードの変更が必要でした。A100 は、まったくコードを変更することなく、FP32 と同様に動作し、AI を最大 20 倍高速化する新しい精度の Tensor Float32 (TF32) を提供します。

FP64 Tensor コア

FP64 Tensor コア

A100 は Tensor コアのパワーを HPC にもたらします。HPC 向けの GPU に倍精度演算を導入して以来、最大の画期的出来事です。FP64 精度で行列演算を可能にすることにより、倍精度演算を必要とするあらゆる HPC アプリケーションは、前世代の GPU と比較して 2.5 倍のパフォーマンスと効率性を得ることができます。

FP16 TENSOR コア

FP16 TENSOR コア

A100 Tensor コアはディープラーニング用に FP16 を強化し、AI 向け NVIDIA Volta™ と比較して 2 倍の高速化を実現します。劇的にスループットが上がり、収束までの時間が短縮されます。

INT8 精度

INT8 精度

NVIDIA Turing で初めて導入された INT8 Tensor コアによって、推論スループットが劇的に加速し、効率性が大幅に上がります。NVIDIA Ampere アーキテクチャの INT8 によって、運用環境で Volta 比 10 倍のスループットが得られます。この多様性により、コアと エッジ データ センター の高バッチおよびリアルタイムのワークロード両方で業界をリードするパフォーマンスが可能になります。

Turing Tensor コア

第 2 世代

NVIDIA Turing™ Tensor コア テクノロジには、多精度コンピューティングで AI 推論を効率化するという特徴があります。Turing Tensor コアは、FP32 から FP16、INT8、INT4 まで、ディープラーニングのトレーニングと推論のためのさまざまな精度に対応しており、NVIDIA Pascal™ GPU を上回るパフォーマンスを提供します。

Turing Tensor Cores
Volta Tensor Cores

Volta Tensor コア

第 1 世代

ディープラーニング専用に設計された NVIDIA Volta™ の第 1 世代 Tensor コアは、FP16 と FP32 の混合精度を使用した行列乗算により、革新的なパフォーマンスを発揮します。NVIDIA Pascal と比較すると、ピーク テラフロップス (TFLOPS) がトレーニングで最大 12 倍、推論で最大 6 倍になります。この優れた性能により、Volta は Pascal と比較し、トレーニングと推論で 3 倍の高速化を実現します。

AI と HPC の最もパワフルなエンドツーエンド データ センター プラットフォーム

Tensor コアは、ハードウェア、ネットワーク構築、ソフトウェア、ライブラリ、NGC の最適化されたモデルとアプリケーションが組み込まれた完全な NVIDIA データ センター ソリューションの不可欠な構成要素です。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

NVIDIA A100 NVIDIA Turing NVIDIA Volta
サポートされている Tensor コア精度 FP64、 TF32、 bfloat16、 FP16、 INT8、 INT4、 INT1 FP16、 INT8、 INT4、 INT1 FP16
サポートされている CUDA® コア精度 FP64、 FP32、 FP16、 bfloat16、 INT8 FP64, FP32、 FP16、 INT8 FP64, FP32、 FP16、 INT8

EXPLORE NVIDIA TENSOR コアの詳細

このウェビナーに参加すると、NVIDIA Tensor コア GPU で最適なパフォーマンスを実現するために必要なことを学んでいただけます。