NVIDIA Tensor コア

生成 AI のためのこれまでにない高速化

Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで精度を維持し、セキュリティを強化しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイパフォーマンスコンピューティング (HPC) タスクをこれまで以上に高速化します。パラメーターが兆単位の生成 AI モデルのトレーニングを 4 倍高速化し、推論パフォーマンスを 30 倍向上させた NVIDIA Tensor コアは、最新の AI ファクトリのあらゆるワークロードを高速化します。

はじめに
Blackwell
Hopper
仕様

はじめに
Blackwell
Hopper
仕様

革新的な AI トレーニング

16 ビット浮動小数点 (FP16) 精度で数兆単位のパラメーターを持つ生成 AI モデルをトレーニングすると、数か月かかることがあります。NVIDIA Tensor コアは、Transformer Engine、Tensor Float 32 (TF32)、FP16 の FP8 のようにコンパクトな数値データ型で、桁違いに高いパフォーマンスを発揮します。また、CUDA-X™ ライブラリを介したネイティブフレームワークの直接サポートにより、実装を自動的に行うことができ、精度を維持しながらトレーニングとコンバージェンスの時間を劇的に短縮します。

画期的な推論

GPU 使用率を最大化しながら高スループットと低遅延を実現することは、AI 推論の確実なデプロイのために、最も重要なパフォーマンス要件となります。NVIDIA Blackwell アーキテクチャの Transformer Engine は、並外れたパフォーマンスを提供し、数兆単位のパラメーターを持つ生成 AI モデルを加速する汎用性も備えています。

Tensor コアにより、NVIDIA は業界標準の MLPerf 推論ベンチマークで最高記録を達成しました。

先進的な HPC

HPC は現代科学の基礎となる柱です。次世代の新しい発見を解き明かすため、科学者たちはシミュレーションを利用して、創薬のために複雑な分子の理解を深め、物理学からエネルギー源の可能性を探り、大気データを活用して異常気象のパターンの予測精度を上げ、それに備えたりします。NVIDIA Tensor は FP64 など、あらゆる精度に対応しており、最高の正確さが求められる科学コンピューティングを加速します。

HPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールを提供します。

NVIDIA Blackwell Tensor コア

第 5 世代

Blackwell アーキテクチャは、GPT-MoE-1.8T のような巨大モデルにおいて、前世代の NVIDIA Hopper™ と比較して 30 倍の高速化を実現します。このパフォーマンスの向上は、第 5 世代の Tensor コアによって可能になりました。Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリングフォーマットを含む新しい精度を追加し、正確度が向上し、より高い精度に代替させやすくなっています。

NVIDIA Blackwell アーキテクチャの詳細を見る

新しい精度
Transformer Engine

新しい精度フォーマット

生成 AI モデルのサイズと複雑さは劇的に増加しており、トレーニングと推論のパフォーマンスを向上させることが重要になります。このようなコンピューティング処理のニーズに応えるために、Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリングフォーマットを含む、新しい量子化フォーマットと精度をサポートします。

第 2 世代 Transformer Engine

第 2 世代の Transformer Engine は、カスタムの Blackwell Tensor コアテクノロジと NVIDIA® TensorRT™-LLM および NeMo™ フレームワークのイノベーションを組み合わせることで、大規模言語モデル (LLM) と MoE (Mixture-of-Experts: 混合エキスパート) モデルの推論と学習を加速します。Transformer Engine は、Tensor コアの FP4 精度によって加速され、現在および次世代の MoE モデルの高い精度を維持しながら、性能と効率を 2 倍にします。

Transformer Engine は、リアルタイムのパフォーマンスにより今日の LLM を民主化します。企業は、手頃な価格で最先端の生成 AI モデルを導入することにより、ビジネスプロセスを最適化することができます。

NVIDIA Hopper アーキテクチャ Tensor コア

第 4 世代

Tensor コアテクノロジが導入されたことで NVIDIA GPU はピーク時のパフォーマンスが 60 倍になり、AI と HPC のためのコンピューティングを広めています。NVIDIA Hopper™ アーキテクチャは FP8 を使用して Transformer Engine を搭載した第 4 世代 Tensor コアを発展させ、FP16 より 6 倍高いパフォーマンスを生み出し、兆単位のパラメーターのモデルトレーニングを実現します。TF32、FP64、FP16、INT8 の精度でパフォーマンスを 3 倍にする Hopper Tensor コアは、あらゆるワークロードを高速化します。

NVIDIA Hopper アーキテクチャの詳細を見る

AI と HPC の最もパワフルなエンドツーエンドデータセンタープラットフォーム

ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC™ カタログのアプリケーションが組み込まれた完全な NVIDIA データセンターソリューションにおいて、極めて重要な構成要素になるのが Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

	Blackwell	Hopper
サポートされている Tensor コア精度	FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4	FP64, TF32, BF16, FP16, FP8, INT8
サポートされている CUDA^® コア精度	FP64, FP32, FP16, BF16	FP64, FP32, FP16, BF16, INT8

*仕様は変更される場合があります。

NVIDIA Blackwell の詳細をご覧ください。

詳細を見る