NVIDIA TensorRT Hyperscale-Inferenzplattform

Unterstützt neue Möglichkeiten für KI-basierte Dienste

KI muss ständig mit rasant wachsenden Datenvolumen mithalten und gleichzeitig schnell reagieren. Stellen Sie sich den Herausforderungen mit NVIDIA® Tesla®-GPUs und der NVIDIA TensorRT -Plattform, der weltweit schnellsten und effizientesten Rechenzentrums-Inferenzplattform. Tesla unterstützt alle Deep-Learning-Workloads und bietet die optimale Inferenzlösung, da es höchsten Durchsatz, beste Effizienz und optimale Flexibilität für ein KI-basiertes Erlebnis kombiniert. TensorRT ermöglicht die Nutzung des vollen Leistungsumfangs von Tesla-GPUs bei verschiedenen Anwendungen wie Videostreaming sowie Sprach- und Empfehlungssystemen und bietet eine Basis für das NVIDIA DeepStream-SDK.

RECHENZENTRUMSINFERENZ-PRODUKTE

TESLA T4

Die NVIDIA® Tesla® T4-GPU beschleunigt diverse Cloudworkloads, darunter High-Performance-Computing, Deep-Learning-Training und -Inferenz, maschinelles Lernen, Datenanalysen und Grafik. T4 basiert auf der neuen NVIDIA Turing(™)-Architektur, ist mit 70 Watt energieeffizient und bietet einen kleinen PCIe-Formfaktor. Sie ist für Scale-Out-Server und -Computingumgebungen optimiert. Des Weiteren beinhaltet sie Turing Tensor-Multipräzisions-Recheneinheiten sowie neue RT-Recheneinheiten, die in Kombination mit beschleunigter containerisierter Zusatzsoftware von NVIDIA GPU Cloud revolutionäre, skalierbare Leistung ermöglicht.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

Die NVIDIA® Tesla® T4-GPU ist der effizienteste Inferenzbeschleuniger der Welt. NVIDIA Tesla T4 wird mit NVIDIA Turing Tensor-Recheneinheiten betrieben und bietet revolutionäre Multipräzisions-Inferenzleistung zum Beschleunigen diverser Anwendungen der modernen KI. T4 ist in einen energieeffizienten 75-Watt-PCIe-Formfaktor gepackt und für Scale-Out-Server optimiert sowie speziell für die Bereitstellung modernster Inferenz in Echtzeit konzipiert.

TESLA V100
Für den universellen Einsatz in Rechenzentren

Jeder Tesla V100-Grafikprozessor bietet eine Inferenzleistung von 125 TeraFLOPS. Mit einem einzigen Server mit acht Tesla V100-Grafikprozessoren kann eine Rechenleistung von einem PetaFLOP erreicht werden.

TESLA P4
Für ultraeffiziente Scale-Out-Server

Der Tesla P4 beschleunigt jeden Scale-Out-Server und bietet eine beeindruckende Energieeffizienz, welche die von CPUs um das 60-Fache übersteigt.

TESLA P40
Für Inferenz-Durchsatz-Server

Der Tesla P40 bietet herausragende Inferenzleistung, INT8-Präzision und 24 GB Onboard-Speicher und sorgt damit für eine erstklassige Nutzererfahrung.

NVIDIA-RECHENZENTRUM – RECHENSOFTWARE

NVIDIA TensorRT

NVIDIA TensorRT ist eine hochleistungsfähige Inferenzplattform für neuronale Hochleistungsnetzwerke zur Beschleunigung von Anwendungen wie Empfehlungs-, Spracherkennungs- und Maschinenübersetzungsdienste um das Vierzigfache im Vergleich zu reinen CPU-Architekturen. Mit TensorRT können neuronale Netzmodelle optimiert, Kalibrierungen für geringere Präzision mit hoher Genauigkeit vorgenommen und die Modelle für Produktionsumgebungen in Unternehmens- und Hyperscale-Rechenzentren bereitgestellt werden.


NVIDIA TensorRT-Inferenzserver

Der NVIDIA TensorRT-Inferenzserver ist ein containerisierter Microservice, der es der Anwendung ermöglicht, KI-Modelle im Rechenzentrum zu verwenden. Er maximiert die GPU-Auslastung und führt mehrere Modelle aus verschiedenen Frameworks gleichzeitig auf einem Knoten aus. Der TensorRT-Inferenzserver unterstützt alle gängigen KI-Modelle und Frameworks und nutzt Docker und Kubernetes zur nahtlosen Integration in DevOps-Architekturen. 

Kubernetes bei NVIDIA-GPUs

Mit Kubernetes bei NVIDIA-GPUs kann in Unternehmen die Trainings- und Inferenzbereitstellung in Multi-Cloud-GPU-Clustern nahtlos nach oben skaliert werden. Mit Kubernetes können grafikprozessorbeschleunigte Deep-Learning-Anwendungen und High Performance Computing(HPC)-Anwendungen direkt in Multi-Cloud-GPU-Clustern bereitgestellt werden.

DeepStream-SDK

NVIDIA DeepStream für Tesla ist ein SDK zur Erstellung von Deep-Learning-basierten, skalierbaren Intelligent Video Analytics(IVA)-Anwendungen für Smart Cities und Hyperscale-Rechenzentren. Es vereint NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines für Inferenz, Video-Codec-SDK für Transcode, Vorverarbeitung und Datenkurations-APIs, um so das gesamte Potenzial von Tesla-GPUs auszuschöpfen. So können Sie mit Tesla P4-GPUs beispielsweise bis zu 30 HD-Videostreams gleichzeitig und in Echtzeit dekodieren und analysieren.

LEISTUNGSMERKMALE UND VORTEILE

Die fortschrittlichste KI-Inferenz-Plattform

Tesla T4 mit NVIDIA Turing Tensor-Recheneinheiten bietet eine bahnbrechende Leistung für Deep Learning-Trainings in den FP32-, FP16-, INT8- und INT4-Precisions für Inferenz. Mit 130 TeraOPS (TOPS) von INT8 und 260 TOPS von INT4 hat T4 die weltweit höchste Inferenzeffizienz mit dem bis zu 40-Fachen Wert im Vergleich zu CPUs. Tesla T4 kann simultan bis zu 39 HD-Videostreams in Echtzeit analysieren, dank dedizierter hardwarebeschleunigter Videotranscode-Engines. Entwickler können mit Inferenz intelligente, innovative Funktionen auf einem völlig neuen Niveau anbieten, die eine einfachere Videosuche sowie andere Dienste im Videobereich ermöglichen. Tesla T4 bietet diese herausragende Leistung bei gerade einmal 70 Watt (W) und ist somit die ideale Inferenzlösung für Scale-Out-Server in der Peripherie.

24-fach höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Tesla V100-Grafikprozessoren mit NVIDIA Volta™ ermöglichen in Rechenzentren eine erhebliche Steigerung des Durchsatzes von Deep-Learning-Workloads, sodass sich aus der heutigen gewaltigen Datenflut sinnvolle Informationen gewinnen lassen. Ein Server mit nur einem Tesla V100 kann bis zu 50 reine CPU-Server für Deep-Learning-Inferenz-Workloads ersetzen und bietet erheblich höheren Durchsatz bei geringeren Beschaffungskosten.

Leistungsmaximierung mit NVIDIA TensorRT und dem DeepStream-SDK

NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines liefern hohen Durchsatz bei geringer Latenz für Anwendungen wie Empfehlungssystemen, Spracherkennung und maschineller Übersetzung. Mit TensorRT können Modelle, die mit 32-Bit- oder 16-Bit-Daten trainiert wurden, für INT8-Prozesse auf Tesla T4 und P4 oder FP16 auf Tesla V100 optimiert werden. Das NVIDIA DeepStream-SDK nutzt die Leistungsstärke von Tesla-Grafikprozessoren, um Videosignale gleichzeitig zu decodieren und zu analysieren.

Inferenz, die die GPU-Auslastung maximiert und alle wichtigen Frameworks unterstützt

Der NVIDIA TensorRT-Inferenzserver bietet Rechenzentrum-Inferenzen mit hohem Durchsatz und hilft Ihnen dabei, Ihre GPUs bestmöglich zu nutzen. Der NVIDIA TensorRT-Inferenzserver wird in einem betriebsbereiten Container bereitgestellt. Er ist ein Mikroservice, mit dem Sie Inferenzen über eine API für jede beliebige Kombination von Modellen von Caffe2, NVIDIA TensorRT, TensorFlow und jedem Framework, das den ONNX-Standard unterstützt, auf einer oder mehreren GPUs durchführen können.

Leistungsdaten

Tesla T4: Der weltweit fortschrittlichste Inferenzbeschleuniger Tesla V100: Universeller Einsatz in Rechenzentren Tesla P4 für ultraeffiziente Scale-Out-Server Tesla P40 für Server mit hohem Inferenzdurchsatz
Single-Precision-Leistung (FP32) 8,1 TFLOPS 14 Teraflops (PCIe)
15,7 Teraflops (SXM2)
5,5 Teraflops 12 Teraflops
Half-Precision-Leistung (FP16) 65 FP16-TFLOPS 112 Teraflops (PCIe)
125 Teraflops (SXM2)
Integer-Operationen (INT8) 130 INT8-TOPS 22 TOPS* 47 TOPS*
GPU-Speicher 16GB 32/16GB HBM2 8GB 24GB
Speicherbandbreite 320GB/s 900GB/s 192GB/s 346GB/s
Systemschnittstelle/Formfaktor Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe (SXM2/NVLink) Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe
Leistung 70 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Video-Engine mit Hardwarebeschleunigung 1 Decodier-Engine, 2 Decodier-Engines 1 Decodier-Engine, 2 Codier-Engines 1 Decodier-Engine, 2 Codier-Engines

* Tera-Operations per Second (Tera-Operationen pro Sekunde) mit Boost-Taktung

ERFOLGSGESCHICHTEN

Spracherkennung

Kürzere Reaktionszeiten von Spracherkennungs-Apps bei gleichbleibend hoher Präzision – dank NVIDIA Tesla-GPUs, die auf der TensorRT-Software ausgeführt werden.

Bild- und -Videobearbeitung

Durchsatz mit maximaler Effizienz bei Workloads zur Bild- und -Videobearbeitung – mit dem NVIDIA DeepStream SDK auf Tesla-GPUs.

Empfehlungsdienste

Verbesserte Präzision der Prognosen von Empfehlungsdiensten dank auf Deep Learning basierender neuronaler kollaborativer Filter-Apps, die auf NVIDIA-GPU-Plattformen ausgeführt werden.

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

Die Grafikprozessoren Tesla V100, P40 und Tesla P4 sind ab sofort für Deep-Learning-Inferenz verfügbar.