NVIDIA Tensor コア

次世代のディープラーニング

NVIDIA® Tesla® GPU には、画期的な AI のパフォーマンスを実現する革新的なテクノロジの Tensor コアが搭載されています。Tensor コアは、AI の心臓部である大規模な行列演算を加速させ、1 つの演算で混合精度の行列乗算を実行して計算を蓄積することができます。NVIDIA GPU では何百もの Tensor コアが並行演算を実行するので、スループットと効率が大幅に向上します。

NVIDIA T4 Powered by Turing Tensor Cores

飛躍的に進歩した推論効率


Turing Tensor コア搭載 NVIDIA T4

Tesla T4 は、世界で最も効率的な AI 推論のために、多精度コンピューティングに NVIDIA Turing Tensor コア テクノロジを採用しました。 Turing Tensor コアは、FP32 から FP16、INT8 および INT4 のような推論の精度をフルに発揮し、NVIDIA Pascal® GPU の性能に大きな飛躍をもたらします。

最も効率的なディープラーニング プラットフォーム

T4 によって、推論の FP32、FP16、INT8、INT4 およびバイナリ精度におけるディープラーニングのトレーニングのパフォーマンスが飛躍的に進歩します。INT8 の 130 テラ OPS (TOPS) と INT4 の260 TOPS を使用すると、T4 の推論効率は世界最高となり、CPU と比較してたった 60 パーセントの消費電力で 40 倍にまでパフォーマンスが向上します。わずか 75 ワット (W) で、エッジでのスケールアウト サーバーの理想的なソリューションとなります。

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

NVIDIA V100 GPU Powered by Volta Tensor Cores

世界最高のディープラーニングのスループット


Volta Tensor コアを搭載した NVIDIA V100 GPU

ディープラーニング専用に設計されているため、Volta の初代の Tensor コアは、前世代の NVIDIA Pascal™ と比較すると、ピーク テラフロップス (TFLOPS) がトレーニングで最大 12 倍、推論で最大 6 倍という FP16 および FP32 において混合精度を使用した行列乗算の画期的なパフォーマンスを実現します。この優れた性能により、Volta は Pascal と比較し、トレーニングと推論で 3 倍の高速化を実現します。

Tesla V100 の 640 個の Tensor コアはその 1 つ 1 つが 4x4 行列演算を実行し、その関連データ パスは高いエネルギー効率で世界最速の浮動小数点演算のスループットを実現するように特別に設計されています。

トレーニングと推論の飛躍的な進歩

Deep Learning Training in Less Than a Workday

Volta は 640 個の Tensor コアを備え、その 1 つ 1 つがクロックあたり 64 個の浮動小数点 FMA (Fused-Multiply-Add) 演算を実行します。その結果、トレーニングと推論で最大 125 TFLOPS を達成します。つまり、開発者は FP16 計算と FP32 累積の精度を組み合わせてディープラーニング トレーニングを実行できます。前世代と比較して 3 倍のスピードを実現し、ネットワークで求められる精度レベルに到達します。

この 3 倍のスピードアップが Tensor コア テクノロジの最大の革新性です。ディープラーニングが今、ほんの数時間で可能になりました。

27X Higher Throughput than CPU Server on Deep Learning Inference

例えば、Tesla V100 も前の世代の 3 倍のパフォーマンスを達成し、CPU によるサーバーの 47 倍に高速化します。NVIDIA TensorRT™ のプログラム可能な推論アクセラレータを使用すると、混合精度による推論作業を加速する Tensor コアによって、これらの高速化が実現します。

コンピューティング パフォーマンスの大きな飛躍

Tensor コアと NVIDIA Volta アーキテクチャに関するホワイトペーパーをお読みください