NVIDIA VOLTA の TENSOR コア

次世代のディープラーニング

NVIDIA® Tesla® V100 GPU は、革命的な新 GPU アーキテクチャである NVIDIA Volta を採用しています。その流れるように動作するマルチコアプロセッサは前世代の NVIDIA® PascalTM に比べてエネルギー効率が 50% アップしており、単精度浮動小数点演算 (FP32) と倍精度浮動小数点演算 (FP64) の性能を飛躍的に向上させます。しかし、最大の進歩は何でしょうか。それは Tensor コアの導入です。

トレーニングと推論における飛躍的な進歩

ディープラーニングのために設計された Tensor コアは、ピーク性能がトレーニングで 12 倍、推論で 6 倍という革新的なパフォーマンスを届けます。この優れた性能により、Volta は前世代と比較し、トレーニングと推論で 3 倍の高速化を実現します。

Tesla V100 の 64 個の Tensor コアはその 1 つ 1 つが 4x4 行列演算を実行し、その関連データ パスは高いエネルギー効率で浮動小数点演算のスループットを劇的に上げるように特別に設計されています。

効率性と性能の加速

効率性と性能の加速

Volta は 640 個の Tensor コアを備え、その 1 つ 1 つがクロックあたり 64 個の浮動小数点 FMA (Fused-Multiply-Add) 演算を実行します。その結果、トレーニングと推論で最大 125 TFLOPS を達成します。つまり、開発者は FP16 計算と FP32 累積の精度を組み合わせてディープラーニング トレーニングを実行できます。前世代と比較して 3 倍のスピードを実現し、ネットワークで求められる精度レベルに到達します。

この 3 倍のスピードアップが Tensor コア技術の最大の革新性です。 ディープラーニングが今、ほんの数時間で可能になりました。

コンピューティング パフォーマンスの大きな飛躍

Tensor コアと NVIDIA Volta アーキテクチャに関するホワイトペーパーをお読みください。