This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA TensorRT Hyperscale-Inferenzplattform

Unterstützt neue Möglichkeiten für KI-basierte Dienste

KI muss ständig mit rasant wachsenden Datenvolumen mithalten und gleichzeitig schnell reagieren. Stellen Sie sich den Herausforderungen mit NVIDIA^® Tesla^®-GPUs und der NVIDIA TensorRT^™ -Plattform, der weltweit schnellsten und effizientesten Rechenzentrums-Inferenzplattform. Tesla unterstützt alle Deep-Learning-Workloads und bietet die optimale Inferenzlösung, da es höchsten Durchsatz, beste Effizienz und optimale Flexibilität für ein KI-basiertes Erlebnis kombiniert. TensorRT ermöglicht die Nutzung des vollen Leistungsumfangs von Tesla-GPUs bei verschiedenen Anwendungen wie Videostreaming sowie Sprach- und Empfehlungssystemen und bietet eine Basis für das NVIDIA DeepStream-SDK.

Zum Herunterladen der technischen Übersicht zu Inferenz registrieren

Inferenzinfografik herunterladen

PLASTER-Whitepaper herunterladen

Video zum Thema Rechenzentrumsinferenz ansehen

RECHENZENTRUMSINFERENZ-PRODUKTE

TESLA T4

Die NVIDIA^® Tesla^® T4-GPU beschleunigt diverse Cloudworkloads, darunter High-Performance-Computing, Deep-Learning-Training und -Inferenz, maschinelles Lernen, Datenanalysen und Grafik. T4 basiert auf der neuen NVIDIA Turing(™)-Architektur, ist mit 70 Watt energieeffizient und bietet einen kleinen PCIe-Formfaktor. Sie ist für Scale-Out-Server und -Computingumgebungen optimiert. Des Weiteren beinhaltet sie Turing Tensor-Multipräzisions-Recheneinheiten sowie neue RT-Recheneinheiten, die in Kombination mit beschleunigter containerisierter Zusatzsoftware von NVIDIA GPU Cloud revolutionäre, skalierbare Leistung ermöglicht.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

Die NVIDIA^® Tesla^® T4-GPU ist der effizienteste Inferenzbeschleuniger der Welt. NVIDIA Tesla T4 wird mit NVIDIA Turing Tensor-Recheneinheiten betrieben und bietet revolutionäre Multipräzisions-Inferenzleistung zum Beschleunigen diverser Anwendungen der modernen KI. T4 ist in einen energieeffizienten 75-Watt-PCIe-Formfaktor gepackt und für Scale-Out-Server optimiert sowie speziell für die Bereitstellung modernster Inferenz in Echtzeit konzipiert.

TESLA V100
Für den universellen Einsatz in Rechenzentren

Jeder Tesla V100-Grafikprozessor bietet eine Inferenzleistung von 125 TeraFLOPS. Mit einem einzigen Server mit acht Tesla V100-Grafikprozessoren kann eine Rechenleistung von einem PetaFLOP erreicht werden.

Tesla V100 – Datenblatt (PDF)

TESLA P4
Für ultraeffiziente Scale-Out-Server

Der Tesla P4 beschleunigt jeden Scale-Out-Server und bietet eine beeindruckende Energieeffizienz, welche die von CPUs um das 60-Fache übersteigt.

Tesla P4 – Datenblatt (PDF)

TESLA P40
Für Inferenz-Durchsatz-Server

Der Tesla P40 bietet herausragende Inferenzleistung, INT8-Präzision und 24 GB Onboard-Speicher und sorgt damit für eine erstklassige Nutzererfahrung.

Tesla P40 – Datenblatt (PDF)

NVIDIA-RECHENZENTRUM – RECHENSOFTWARE

NVIDIA TensorRT

NVIDIA TensorRT ist eine hochleistungsfähige Inferenzplattform für neuronale Hochleistungsnetzwerke zur Beschleunigung von Anwendungen wie Empfehlungs-, Spracherkennungs- und Maschinenübersetzungsdienste um das Vierzigfache im Vergleich zu reinen CPU-Architekturen. Mit TensorRT können neuronale Netzmodelle optimiert, Kalibrierungen für geringere Präzision mit hoher Genauigkeit vorgenommen und die Modelle für Produktionsumgebungen in Unternehmens- und Hyperscale-Rechenzentren bereitgestellt werden.

NVIDIA Triton Inference Server

Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist zur Orchestrierung sowie für Metriken und automatische Skalierung mit Kybernetes integriert.

Kubernetes bei NVIDIA-GPUs

Mit Kubernetes bei NVIDIA-GPUs kann in Unternehmen die Trainings- und Inferenzbereitstellung in Multi-Cloud-GPU-Clustern nahtlos nach oben skaliert werden. Mit Kubernetes können grafikprozessorbeschleunigte Deep-Learning-Anwendungen und High Performance Computing(HPC)-Anwendungen direkt in Multi-Cloud-GPU-Clustern bereitgestellt werden.

DeepStream-SDK

NVIDIA DeepStream für Tesla ist ein SDK zur Erstellung von Deep-Learning-basierten, skalierbaren Intelligent Video Analytics(IVA)-Anwendungen für Smart Cities und Hyperscale-Rechenzentren. Es vereint NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines für Inferenz, Video-Codec-SDK für Transcode, Vorverarbeitung und Datenkurations-APIs, um so das gesamte Potenzial von Tesla-GPUs auszuschöpfen. So können Sie mit Tesla P4-GPUs beispielsweise bis zu 30 HD-Videostreams gleichzeitig und in Echtzeit dekodieren und analysieren.

LEISTUNGSMERKMALE UND VORTEILE

Die fortschrittlichste KI-Inferenz-Plattform

Tesla T4 mit NVIDIA Turing Tensor-Recheneinheiten bietet eine bahnbrechende Leistung für Deep Learning-Trainings in den FP32-, FP16-, INT8- und INT4-Precisions für Inferenz. Mit 130 TeraOPS (TOPS) von INT8 und 260 TOPS von INT4 hat T4 die weltweit höchste Inferenzeffizienz mit dem bis zu 40-Fachen Wert im Vergleich zu CPUs. Tesla T4 kann simultan bis zu 39 HD-Videostreams in Echtzeit analysieren, dank dedizierter hardwarebeschleunigter Videotranscode-Engines. Entwickler können mit Inferenz intelligente, innovative Funktionen auf einem völlig neuen Niveau anbieten, die eine einfachere Videosuche sowie andere Dienste im Videobereich ermöglichen. Tesla T4 bietet diese herausragende Leistung bei gerade einmal 70 Watt (W) und ist somit die ideale Inferenzlösung für Scale-Out-Server in der Peripherie.

24-fach höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Tesla V100-Grafikprozessoren mit NVIDIA Volta™ ermöglichen in Rechenzentren eine erhebliche Steigerung des Durchsatzes von Deep-Learning-Workloads, sodass sich aus der heutigen gewaltigen Datenflut sinnvolle Informationen gewinnen lassen. Ein Server mit nur einem Tesla V100 kann bis zu 50 reine CPU-Server für Deep-Learning-Inferenz-Workloads ersetzen und bietet erheblich höheren Durchsatz bei geringeren Beschaffungskosten.

Leistungsmaximierung mit NVIDIA TensorRT und dem DeepStream-SDK

NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines liefern hohen Durchsatz bei geringer Latenz für Anwendungen wie Empfehlungssystemen, Spracherkennung und maschineller Übersetzung. Mit TensorRT können Modelle, die mit 32-Bit- oder 16-Bit-Daten trainiert wurden, für INT8-Prozesse auf Tesla T4 und P4 oder FP16 auf Tesla V100 optimiert werden. Das NVIDIA DeepStream-SDK nutzt die Leistungsstärke von Tesla-Grafikprozessoren, um Videosignale gleichzeitig zu decodieren und zu analysieren.

Inferenz, die die GPU-Auslastung maximiert und alle wichtigen Frameworks unterstützt

Der NVIDIA Triton Inference Server bietet Rechenzentrum-Inferenzen mit hohem Durchsatz und hilft Ihnen dabei, Ihre GPUs bestmöglich zu nutzen. Der NVIDIA TensorRT-Inferenzserver wird in einem betriebsbereiten Container bereitgestellt. Er ist ein Mikroservice, mit dem Sie Inferenzen über eine API für jede beliebige Kombination von Modellen von Caffe2, NVIDIA TensorRT, TensorFlow und jedem Framework, das den ONNX-Standard unterstützt, auf einer oder mehreren GPUs durchführen können.

Leistungsdaten

	Tesla T4: Der weltweit fortschrittlichste Inferenzbeschleuniger	Tesla V100: Universeller Einsatz in Rechenzentren	Tesla P4 für ultraeffiziente Scale-Out-Server	Tesla P40 für Server mit hohem Inferenzdurchsatz
Single-Precision-Leistung (FP32)	8,1 TFLOPS	14 Teraflops (PCIe) 15,7 Teraflops (SXM2)	5,5 Teraflops	12 Teraflops
Half-Precision-Leistung (FP16)	65 FP16-TFLOPS	112 Teraflops (PCIe) 125 Teraflops (SXM2)	—	—
Integer-Operationen (INT8)	130 INT8-TOPS	—	22 TOPS*	47 TOPS*
GPU-Speicher	16GB	32/16GB HBM2	8GB	24GB
Speicherbandbreite	320GB/s	900GB/s	192GB/s	346GB/s
Systemschnittstelle/Formfaktor	Low-Profile-PCI Express-Formfaktor	PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe (SXM2/NVLink)	Low-Profile-PCI Express-Formfaktor	PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe
Leistung	70 W	250 W (PCIe) 300 W (SXM2)	50 W/75 W	250 W
Video-Engine mit Hardwarebeschleunigung	1 Decodier-Engine, 2 Decodier-Engines	—	1 Decodier-Engine, 2 Codier-Engines	1 Decodier-Engine, 2 Codier-Engines

* Tera-Operations per Second (Tera-Operationen pro Sekunde) mit Boost-Taktung

ERFOLGSGESCHICHTEN

Intelligentere, schnellere visuelle Suche

Mithilfe der NVIDIA-GPU-Technologie beschleunigt Bing die Objekterkennung und liefert in Echtzeit relevante Ergebnisse.

Weitere Infos

Bild- und -Videobearbeitung

Durchsatz mit maximaler Effizienz bei Workloads zur Bild- und -Videobearbeitung – mit dem NVIDIA DeepStream SDK auf Tesla-GPUs.

Zum Blog

Empfehlungsdienste

Verbesserte Präzision der Prognosen von Empfehlungsdiensten dank auf Deep Learning basierender neuronaler kollaborativer Filter-Apps, die auf NVIDIA-GPU-Plattformen ausgeführt werden.

Zum Blog

WEITERE ERFOLGSGESCHICHTEN LESEN

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

Die Grafikprozessoren Tesla V100, P40 und Tesla T4 sind ab sofort für Deep-Learning-Inferenz verfügbar.

BEZUGSQUELLEN

NVIDIA TensorRT Hyperscale-Inferenzplattform

Unterstützt neue Möglichkeiten für KI-basierte Dienste

RECHENZENTRUMSINFERENZ-PRODUKTE

TESLA T4

TESLA T4

TESLA V100Für den universellen Einsatz in Rechenzentren

TESLA P4Für ultraeffiziente Scale-Out-Server

TESLA P40Für Inferenz-Durchsatz-Server

NVIDIA-RECHENZENTRUM – RECHENSOFTWARE

NVIDIA TensorRT

NVIDIA Triton Inference Server

Kubernetes bei NVIDIA-GPUs

DeepStream-SDK

LEISTUNGSMERKMALE UND VORTEILE

Die fortschrittlichste KI-Inferenz-Plattform

24-fach höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Leistungsmaximierung mit NVIDIA TensorRT und dem DeepStream-SDK

Inferenz, die die GPU-Auslastung maximiert und alle wichtigen Frameworks unterstützt

Leistungsdaten

ERFOLGSGESCHICHTEN

Intelligentere, schnellere visuelle Suche

Bild- und -Videobearbeitung

Empfehlungsdienste

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

TESLA V100
Für den universellen Einsatz in Rechenzentren

TESLA P4
Für ultraeffiziente Scale-Out-Server

TESLA P40
Für Inferenz-Durchsatz-Server