Tensor-Recheneinheiten in NVIDIA Volta

Die nächste Generation des Deep Learning

NVIDIA® Tesla®-GPUs sind mit Tensor-Recheneinheiten ausgestattet, einer revolutionären Technologie für bahnbrechende KI-Leistung. Tensor-Recheneinheiten können große matrixgesteuerte Prozesse, die das Herzstück der KI bilden, beschleunigen. Sie können Mixed-Precision-Matrixmultiplikation durchführen und Berechnungen in einem einzigen Arbeitsgang sammeln. Hunderte von Tensor-Recheneinheiten, die parallel in einem NVIDIA-Grafikprozessor arbeiten, ermöglichen eine massive Steigerung von Durchsatz und Effizienz.

NVIDIA T4 mit Turing Tensor-Recheneinheiten

BAHNBRECHENDE INFERENZLEISTUNG


NVIDIA T4 mit Turing Tensor-Recheneinheiten

Tesla T4 führt die Technologie von Turing Tensor-Recheneinheiten mit Multipräzisions-Computing für die weltweit effizienteste KI-Inferenz ein. Turing Tensor-Recheneinheiten bieten umfassende Inferenzgenauigkeit von FP32 über FP16 bis hin zu INT8 und außerdem INT4 – so liefern sie im Vergleich zu NVIDIA Pascal®-GPUs ein gewaltiges Leistungsplus.

DIE FORTSCHRITTLICHSTE DEEP-LEARNING-PLATTFORM

T4 bietet eine bahnbrechende Leistung für Deep-Learning-Trainings in den FP32-, FP16-, INT8- und INT4-Precisions für Inferenz. Mit 130 teraOPS (TOPS) von INT8 und 260 TOPS von INT4 hat T4 die weltweit höchste Inferenzeffizienz mit dem bis zu 40-Fachen der Leistung von CPUs und nur 60 Prozent des Stromverbrauchs. Mit einem Verbrauch von nur 75 Watt (W) ist es die ideale Lösung für herausragende Scale-Out-Server.

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

NVIDIA V100-GPU mit Volta Tensor-Recheneinheiten

DER WELTWEIT HÖCHSTE DEEP-LEARNING-DURCHSATZ


NVIDIA V100-GPU mit Volta Tensor-Recheneinheiten

Die Volta Tensor-Recheneinheiten der ersten Generation wurden speziell für Deep Learning entwickelt und bieten bahnbrechende Leistung mit einer Mixed-Precision-Matrixmultiplikation in FP16 und FP32 und bis zu 12-fach höheren Spitzen-Teraflops (TFLOPS) für das Training und 6-fach höheren Spitzen-TFLOPS für Inferenz gegenüber der Vorgängergeneration NVIDIA Pascal™. Dank dieses wichtigen Merkmals weist Volta beim Training und bei der Inferenz eine dreimal höhere Leistung auf als Pascal.

Jede der 640 Tensor-Recheneinheiten des Tesla V100-Grafikprozessors verwendet eine 4-x-4-Matrix. Die zugehörigen Datenpfade wurden speziell so gestaltet, dass der Gleitkomma-Berechnungsdurchsatz der weltweit schnellste ist und eine hohe Energieeffizienz erzielt wird.

EIN DURCHBRUCH IN DEN BEREICHEN TRAINING UND INFERENZ

Deep Learning Training in Less Than a Workday

Volta verfügt über 640 Tensor-Recheneinheiten, von denen jede pro Takt 64 Gleitpunkt-FMA-Berechnungen (Fused-Multiply-Add) durchführt. Dadurch stehen für Trainings- und Inferenzanwendungen bis zu 125 TFLOPS zur Verfügung. Das bedeutet, dass Entwickler Deep-Learning-Training mit einer gemischten Genauigkeit von FP16 (Berechnung) und FP32 (Sammlung) durchführen können. So lassen sich eine 3 Mal höhere Geschwindigkeit im Vergleich zur vorherigen Generation und Konvergenz mit den erwarteten Genauigkeitsgraden eines Netzwerks erreichen.

Diese 3-fache Leistungssteigerung ist ein wichtiger Fortschritt der Tensor-Recheneinheiten-Technologie. Deep Learning ist nun innerhalb weniger Stunden möglich.

27X Higher Throughput than CPU Server on Deep Learning Inference

Bei Inferenz ist mit dem Tesla V100 zudem ein mehr als dreifacher Leistungsvorteil gegenüber der Vorgängergeneration realisierbar. Das entspricht der 47-fachen Beschleunigung im Vergleich mit einem CPU-basierten Server. Bei Verwendung des programmierbaren Inferenzbeschleunigers NVIDIA TensorRT™ sind diese Beschleunigungen überwiegend auf die Tensor-Recheneinheiten zurückzuführen, die Inferenzaufgaben mithilfe von Mixed-Precision-Leistung beschleunigen.

Enorme Steigerung der Rechenleistung

Lesen Sie das Whitepaper zu den Tensor-Recheneinheiten und zur NVIDIA Volta-Architektur.