Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで正確さを維持しながらスループットを加速します。この最新世代では、あらゆるワークロードの範囲にこの高速化が拡張されます。NVIDIA Tensor コアはあらゆるワークロードに新しい能力を与えます。革新的な新精度、Tensor Float 32 (TF32) は AI トレーニングを 10 倍スピードアップし、FP64 ではハイ パフォーマンス コンピューティング (HPC) を 2.5 倍高速化します。
高性能な対話型 AI やディープ リコメンダー システムなど、次のレベルの課題に挑む AI モデルは爆発的に複雑化し続けています。Megatron のような対話型 AI モデルは、ResNet-50 のような画像分類モデルに比べ、何百倍も大きく、複雑です。そのような大規模なモデルを FP32 精度でトレーニングすると、何日も、さらには何週間もかかることがあります。NVIDIA GPU の Tensor コアでは、TF32 や FP16 のようにコンパクトな数値データ型で桁違いに高いパフォーマンスを提供します。そして NVIDIA CUDA-X™ ライブラリ によってネイティブ フレームワークで直接サポートされるため、 実装は自動的に行われます。それにより、精度を維持しながらトレーニングから収束までの時間が劇的に短縮されます。
Tensor コアにより、AI 業界初のトレーニング用ベンチマーク、MLPerf 0.6 で NVIDIA が最高記録達成。
優れた AI 推論アクセラレータは、パフォーマンスに優れているだけでなく、さまざまなニューラル ネットワークを加速するという多様性があります。また、開発者はプログラミングで新しいニューラル ネットワークを構築できます。GPU 使用率を最大化しながら高スループットと低遅延を実現することは、AI 推論の確実な展開のために、最も重要なパフォーマンス要件となります。NVIDIA Tensor コアはあらゆる精度に対応しています。TF32、bfloat16、FP16、INT8、INT4 が与える多様性とパフォーマンスには並ぶものがありません。
Tensor コアにより、AI 業界初の推論用ベンチマーク、MLPerf Inference 0.5 で NVIDIA が最高記録達成。
HPC は現代科学を支える柱です。次世代の新しい技術を開発するために、サイエンティストたちは複雑な分子に対する理解度を上げるべく、シミュレーションを利用します。そのシミュレーションによって薬を発見したり、物理学からエネルギー源の可能性を探ったり、大気データから極端な天候パターンを今までより高い精度で予測し、それに備えたりします。NVIDIA Tensor は FP64 など、あらゆる精度に対応しており、最高の正確さが求められる科学コンピューティングを加速します。
この NVIDIAHPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールの包括的なスイートです。
NVIDIA Tensor コア テクノロジは AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速させます。NVIDIA Ampereアーキテクチャは、大幅なパフォーマンスの向上を実現し、研究者が必要とするすべての領域 — TF32、FP64、FP16、INT8、INT4 - をカバーする新しい精度を提供します。これにより、AI の短期間で簡単に導入でき、NVIDIA Tensor コアの性能が HPC にもたらされます。
AI のネットワークとデータセットが爆発的に増加していますが、それに必要な計算処理能力要件も同様に上がっています。精度を下げることで大幅な高速化が可能になりましたが、今まではコードの変更が必要でした。A100 は、まったくコードを変更することなく、FP32 と同様に動作し、AI を最大 20 倍高速化する新しい精度の Tensor Float32 (TF32) を提供します。
A100 は Tensor コアのパワーを HPC にもたらします。HPC 向けの GPU に倍精度演算を導入して以来、最大の画期的出来事です。FP64 精度で行列演算を可能にすることにより、倍精度演算を必要とするあらゆる HPC アプリケーションは、前世代の GPU と比較して 2.5 倍のパフォーマンスと効率性を得ることができます。
A100 Tensor コアはディープラーニング用に FP16 を強化し、AI 向け NVIDIA Volta™ と比較して 2 倍の高速化を実現します。劇的にスループットが上がり、収束までの時間が短縮されます。
NVIDIA Turing™ で初めて導入された INT8 Tensor コアによって、推論スループットが劇的に加速し、効率性が大幅に上がります。NVIDIA Ampere アーキテクチャの INT8 によって、運用環境で Volta 比 10 倍のスループットが得られます。この多様性により、コアと エッジ データ センター の高バッチおよびリアルタイムのワークロード両方で業界をリードするパフォーマンスが可能になります。
NVIDIA Turing™ Tensor コア テクノロジには、多精度コンピューティングで AI 推論を効率化するという特徴があります。Turing Tensor コアは、FP32 から FP16、INT8、INT4 まで、ディープラーニングのトレーニングと推論のためのさまざまな精度に対応しており、NVIDIA Pascal™ GPU を上回るパフォーマンスを提供します。
ディープラーニング専用に設計された NVIDIA Volta™ の第 1 世代 Tensor コアは、FP16 と FP32 の混合精度を使用した行列乗算により、革新的なパフォーマンスを発揮します。NVIDIA Pascal と比較すると、ピーク テラフロップス (TFLOPS) がトレーニングで最大 12 倍、推論で最大 6 倍になります。この優れた性能により、Volta は Pascal と比較し、トレーニングと推論で 3 倍の高速化を実現します。
Tensor コアは、ハードウェア、ネットワーク構築、ソフトウェア、ライブラリ、NGC™ の最適化されたモデルとアプリケーションが組み込まれた完全な NVIDIA データ センター ソリューションの不可欠な構成要素です。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。
このウェビナーに参加すると、NVIDIA Tensor コア GPU で最適なパフォーマンスを実現するために必要なことを学んでいただけます。