NVIDIA Tensor コア

次世代のディープラーニング

NVIDIA® Tesla® GPU には、画期的な AI のパフォーマンスを実現する革新的なテクノロジの Tensor コアが搭載されています。Tensor コアは、AI の心臓部である大規模な行列演算を加速させ、1 つの演算で混合精度の行列乗算を実行して計算を蓄積することができます。NVIDIA GPU では何百もの Tensor コアが並行演算を実行するので、スループットと効率が大幅に向上します。

飛躍的に進歩した推論効率


Turing Tensor コアを搭載した NVIDIA T4

Tesla T4 は、世界で最も効率的な AI 推論のための多精度コンピューティングを行う NVIDIA Turing Tensor コア テクノロジを導入します。Turing によって、推論効率は前世代の NVIDIA Volta™ と比較して、INT8 では 2 倍、INT4 では 4 倍のスピードアップを実現します。

最も効率的なディープラーニング プラットフォーム

T4 によって、推論の FP32、FP16、INT8、INT4 およびバイナリ精度におけるディープラーニングのトレーニングのパフォーマンスが飛躍的に進歩します。INT8 の 130 テラ OPS (TOPS) と INT4 の260 TOPS を使用すると、T4 の推論効率は世界最高となり、CPU と比較してたった 60 パーセントの消費電力で 40 倍にまでパフォーマンスが向上します。わずか 75 ワット (W) で、エッジでのスケールアウト サーバーの理想的なソリューションとなります。

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

世界最高のディープラーニングのスループット


Volta Tensor コアを搭載した NVIDIA V100 GPU

ディープラーニング専用に設計されているため、Volta の初代の Tensor コアは、前世代の NVIDIA Pascal™ と比較すると、ピーク テラフロップス (TFLOPS) がトレーニングで最大 12 倍、推論で最大 6 倍という FP16 および FP32 において混合精度を使用した行列乗算の画期的なパフォーマンスを実現します。この優れた性能により、Volta は Pascal と比較し、トレーニングと推論で 3 倍の高速化を実現します。

Tesla V100 の 640 個の Tensor コアはその 1 つ 1 つが 4x4 行列演算を実行し、その関連データ パスは高いエネルギー効率で世界最速の浮動小数点演算のスループットを実現するように特別に設計されています。

トレーニングと推論の飛躍的な進歩

Deep Learning Training in Less Than a Workday

Volta は 640 個の Tensor コアを備え、その 1 つ 1 つがクロックあたり 64 個の浮動小数点 FMA (Fused-Multiply-Add) 演算を実行します。その結果、トレーニングと推論で最大 125 TFLOPS を達成します。つまり、開発者は FP16 計算と FP32 累積の精度を組み合わせてディープラーニング トレーニングを実行できます。前世代と比較して 3 倍のスピードを実現し、ネットワークで求められる精度レベルに到達します。

この 3 倍のスピードアップが Tensor コア テクノロジの最大の革新性です。ディープラーニングが今、ほんの数時間で可能になりました。

27X Higher Throughput than CPU Server on Deep Learning Inference

例えば、Tesla V100 も前の世代の 3 倍のパフォーマンスを達成し、CPU によるサーバーの 47 倍に高速化します。NVIDIA TensorRT™ のプログラム可能な推論アクセラレータを使用すると、混合精度による推論作業を加速する Tensor コアによって、これらの高速化が実現します。

コンピューティング パフォーマンスの大きな飛躍

Tensor コアと NVIDIA Volta アーキテクチャに関するホワイトペーパーをお読みください