NVIDIA Tensor コア

生成 AI のためのこれまでにない高速化

Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで精度を維持し、セキュリティを強化しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイ パフォーマンス コンピューティング (HPC) タスクをこれまで以上に高速化します。パラメーターが兆単位の生成 AI モデルのトレーニングを 4 倍高速化し、推論パフォーマンスを 30 倍向上させた NVIDIA Tensor コアは、最新の AI ファクトリのあらゆるワークロードを高速化します。

革新的な AI トレーニング

16 ビット浮動小数点 (FP16) 精度で数兆単位のパラメーターを持つ生成 AI モデルをトレーニングすると、数か月かかることがあります。NVIDIA Tensor コアは、Transformer Engine、Tensor Float 32 (TF32)、FP16 の FP8 のようにコンパクトな数値データ型で、桁違いに高いパフォーマンスを発揮します。また、CUDA-X™ ライブラリを介したネイティブ フレームワークの直接サポートにより、実装を自動的に行うことができ、精度を維持しながらトレーニングとコンバージェンスの時間を劇的に短縮します。

画期的な推論

GPU 使用率を最大化しながら高スループットと低遅延を実現することは、AI 推論の確実なデプロイのために、最も重要なパフォーマンス要件となります。NVIDIA Blackwell アーキテクチャの Transformer Engine は、並外れたパフォーマンスを提供し、数兆単位のパラメーターを持つ生成 AI モデルを加速する汎用性も備えています。

Tensor コアにより、NVIDIA は業界標準の MLPerf 推論ベンチマークで最高記録を達成しました。

先進的な HPC

HPC は現代科学の基礎となる柱です。次世代の新しい発見を解き明かすため、科学者たちはシミュレーションを利用して、創薬のために複雑な分子の理解を深め、物理学からエネルギー源の可能性を探り、大気データを活用して異常気象のパターンの予測精度を上げ、それに備えたりします。NVIDIA Tensor は FP64 など、あらゆる精度に対応しており、最高の正確さが求められる科学コンピューティングを加速します。

HPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールを提供します。

NVIDIA Blackwell Tensor コア

第 5 世代

Blackwell アーキテクチャは、GPT-MoE-1.8T のような巨大モデルにおいて、前世代の NVIDIA Hopper™ と比較して 30 倍の高速化を実現します。このパフォーマンスの向上は、第 5 世代の Tensor コアによって可能になりました。Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットを含む新しい精度を追加し、正確度が向上し、より高い精度に代替させやすくなっています。

新しい精度フォーマット

生成 AI モデルのサイズと複雑さは劇的に増加しており、トレーニングと推論のパフォーマンスを向上させることが重要になります。このようなコンピューティング処理のニーズに応えるために、Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットを含む、新しい量子化フォーマットと精度をサポートします。

第 2 世代 Transformer Engine

第 2 世代の Transformer Engine は、カスタムの Blackwell Tensor コア テクノロジと NVIDIA® TensorRT™-LLM および NeMo™ フレームワークのイノベーションを組み合わせることで、大規模言語モデル (LLM) と MoE (Mixture-of-Experts: 混合エキスパート) モデルの推論と学習を加速します。Transformer Engine は、Tensor コアの FP4 精度によって加速され、現在および次世代の MoE モデルの高い精度を維持しながら、性能と効率を 2 倍にします。

Transformer Engine は、リアルタイムのパフォーマンスにより今日の LLM を民主化します。企業は、手頃な価格で最先端の生成 AI モデルを導入することにより、ビジネス プロセスを最適化することができます。

NVIDIA Hopper アーキテクチャ Tensor コア

第 4 世代

Tensor コア テクノロジ が導入されたことで NVIDIA GPU はピーク時のパフォーマンスが 60 倍になり、AI と HPC のためのコンピューティングを広めています。NVIDIA Hopper™ アーキテクチャは FP8 を使用して Transformer Engine を搭載した第 4 世代 Tensor コアを発展させ、FP16 より 6 倍高いパフォーマンスを生み出し、兆単位のパラメーターのモデル トレーニングを実現します。TF32、FP64、FP16、INT8 の精度でパフォーマンスを 3 倍にする Hopper Tensor コアは、あらゆるワークロードを高速化します。

AI と HPC の最もパワフルなエンドツーエンド データ センター プラットフォーム

ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC™ カタログのアプリケーションが組み込まれた完全な NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素になるのが Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

Blackwell Hopper
サポートされている Tensor コア精度 FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8
サポートされている CUDA® コア精度 FP64, FP32, FP16, BF16 FP64, FP32, FP16, BF16, INT8

*仕様は変更される場合があります。

NVIDIA Blackwell の詳細をご覧ください。