NVIDIA Tensor コア

HPC と AI のための前例のない高速化

Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで正確さを維持しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイ パフォーマンス コンピューティング (HPC) タスクをこれまで以上に高速化します。トランスフォーマー ネットワーク トレーニングの 6 倍の高速化から、すべてのアプリケーションで 3 倍のパフォーマンス向上まで、NVIDIA Tensor コアは、すべてのワークロードに新しい機能をもたらします。

革新的な AI トレーニング

革新的な AI トレーニング

対話型 AI といった次のレベルの課題に挑む AI モデルは、爆発的に複雑化しています。そのような大規模なモデルを FP32 でトレーニングすると、何週間も、さらには何か月もかかることがあります。NVIDIA Tensor コアは、Transformer Engine、Tensor Float 32 (TF32)、FP16 の 8 ビット浮動小数点 (FP8) のようにコンパクトな数値データ型で、桁違いに高いパフォーマンスを生み出します。また、 CUDA-X ライブラリを介したネイティブ フレームワークの直接サポートにより、実装が自動的に行え、精度を維持しながらトレーニングとコンバージェンスの時間を劇的に短縮します。

Tensor コアにより、AI 業界の トレーニング用ベンチマーク、MLPerf で NVIDIA が最高記録達成。

画期的な AI 推論

画期的な AI 推論

優れた AI 推論アクセラレータは、パフォーマンスに優れているだけでなく、さまざまなニューラル ネットワークを加速するという多様性があります。また、開発者はプログラミングで新しいニューラル ネットワークを構築できます。GPU 使用率を最大化しながら高スループットと低遅延を実現することは、AI 推論の確実な展開のために、最も重要なパフォーマンス要件となります。NVIDIA Tensor コアはあらゆる精度に対応しています。TF32、bfloat16、FP16、FP8、INT8 が与える多様性とパフォーマンスには並ぶものがありません。

Tensor コアにより、推論用ベンチマーク、MLPerf で NVIDIA が最高記録達成。

Advanced HPC

Advanced HPC

HPC は現代科学の基礎となる柱です。次世代の新しい技術を開発するために、サイエンティストたちは複雑な分子に対する理解度を上げるべく、シミュレーションを利用します。そのシミュレーションによって薬を発見したり、物理学からエネルギー源の可能性を探ったり、大気データから極端な天候パターンを今までより高い精度で予測し、それに備えたりします。NVIDIA Tensor は FP64 など、あらゆる精度に対応しており、最高の正確さが求められる科学コンピューティングを加速します。

HPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールを提供します。

NVIDIA H100 Tensor コア

第 4 世代

Tensor コア テクノロジ が導入されてから、NVIDIA GPU はピーク時のパフォーマンスが 60 倍向上し、AI と HPC のコンピューティングの民主化を推進しました。NVIDIA Hopper™ アーキテクチャは新しい 8 ビット浮動小数点精度 (FP8) を使用して Transformer Engine を搭載した第 4 世代 Tensor コアを進歩させ、FP16 より 6 倍高いパフォーマンスを生み出し、兆パラメーターのモデル トレーニングを実現します。TF32、FP64、FP16、INT8 の精度で 3 倍高いパフォーマンスを実現する Hopper Tensor コアは、すべてのワークロードに対して最高速度をもたらします。

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
FP8 Tensor コア

FP8

Transformer AI ネットワークのトレーニング時間は、演算を必要とする大規模なコンピューティングのせいで数か月に及びます。Hopper の新しい FP8 の精度は Ampere の FP16 と比べて最大 6 倍のパフォーマンスを実現します。FP8 は、Transformer モデルのトレーニングを高速化させるために設計された Hopper Tensor コア テクノロジである Transformer Engine で活用されています。Hopper Tensor コアは FP8 と FP16 の混合精度フォーマットを適用しており、精度を維持しながらトランスフォーマー トレーニングの AI 計算を劇的に加速させます。また、FP8 は大規模な言語モデル推論で大規模な高速化を可能にし、Ampere の最大 30 倍のパフォーマンスを実現します。

Tensor Float 32

TF32

AI のネットワークとデータセットが爆発的に増加していますが、それに必要な計算処理能力要件も同様に上がっています。精度を下げることで大幅な高速化が可能になりましたが、今まではコードの変更が必要でした。H100 は、まったくコードを変更することなく、FP32 と同様に動作し、NVIDIA Ampere™ Tensor コアを最大 3 倍高速化する新しい精度の TF32 をサポートします。

FP64 Tensor コア

FP64

H100 は Tensor コアのパワーを HPC にもたらし続け、これまで以上にパフォーマンスを向上させます。H100 の FP64 のパフォーマンス速度は、前世代と比較して 3 倍。倍精度演算を必要とするあらゆる HPC アプリケーションをさらに加速します。

FP16 TENSOR コア

FP16

H100 Tensor コアはディープラーニング向けの FP16 を加速させ、NVIDIA Ampere アーキテクチャの Tensor コアと比較して AI を3 倍高速化させます。劇的にスループットが上がり、収束までの時間が短縮されます。

INT8

INT8

NVIDIA Turing™ で初めて導入された INT8 Tensor コアは、推論スループットを劇的に加速し、効率を大幅に向上させます。NVIDIA Hopper アーキテクチャの INT8 によって、実稼働のデプロイメントにおける前世代の Tensor Core と比較して 3 倍のスループットを実現します。この多様性により、コア データ センターとエッジ データ センターの高バッチ ワークロードとリアルタイム ワークロードの両方で業界をリードするパフォーマンスが可能です。 

NVIDIA Ampere アーキテクチャ Tensor コア

NVIDIA Ampere アーキテクチャ Tensor コア

第 3 世代

NVIDIA Ampere アーキテクチャ Tensor コアは以前の革新的技術を基盤としており、TF32 と FP64 という新しい精度をもたらし、AI 導入を簡単にし、Tensor コアのパワーを HPC に持ち込みます。また、bfloat16、INT8、INT4 に対応していることで、第 3 世代の Tensor コアでは、AI のトレーニングと推論のために、極めて多面的なアクセラレータが作られます。

NVIDIA Turing Tensor コア

第 2 世代

NVIDIA Turing Tensor コア テクノロジには、多精度コンピューティングで AI 推論を効率化するという特徴があります。Turing Tensor コアは、FP32 から FP16、INT8、INT4 まで、ディープラーニングのトレーニングと推論のためのさまざまな精度に対応しており、NVIDIA Pascal GPU を上回るパフォーマンスを提供します。

Turing Tensor コア
Volta Tensor コア

NVIDIA Volta の Tensor コア

第 1 世代

ディープラーニング専用に設計された NVIDIA Volta の第 1 世代 Tensor コアは、FP16 と FP32 の混合精度を使用した行列乗算により、革新的なパフォーマンスを発揮します。NVIDIA Pascal と比較すると、ピーク テラフロップス (TFLOPS) がトレーニングで最大 12 倍、推論で最大 6 倍になります。この優れた性能により、Volta は Pascal と比較し、トレーニングと推論で 3 倍の高速化を実現します。

AI と HPC の最もパワフルなエンドツーエンド データ センター プラットフォーム

ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC カタログのアプリケーションが組み込まれた完全版 NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素が Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

Hopper NVIDIA Ampere Turing Volta
サポートされている Tensor コア精度 FP64、TF32、bfloat16、FP16、FP8、INT8 FP64、TF32、bfloat16、FP16、INT8、INT4、INT1 FP16、INT8、INT4、INT1 FP16
サポートされている CUDA® コア精度 FP64、FP32、FP16、bfloat16、INT8 FP64、FP32、FP16、bfloat16、INT8 FP64、FP32、FP16、INT8 FP64、FP32、FP16、INT8

 仕様は変更される場合があります。

NVIDIA Hopper アーキテクチャの詳細を見る