BISHER UNERREICHTE BENUTZERINTERAKTION

Verbessern Sie den Durchsatz und die Reaktionsschnelligkeit bei Inferenz-Workloads für Deep Learning.

Die KI muss ständig mit rasant wachsenden Datenvolumen mithalten und gleichzeitig schnell reagieren. Mit NVIDIA® Tesla®, der schnellsten und effizientesten Rechenzentrum-Plattform für Inferenz meistern Sie diese Herausforderungen. Tesla unterstützt alle Deep-Learning-Workloads und bietet die optimale Inferenzlösung. Diese vereint den höchsten Durchsatz, die beste Effizienz und die größte Flexibilität, um die erforderliche Leistung für KI-gestützte Erfahrungen bereitzustellen. TensorRT ermöglicht die Nutzung des vollen Leistungsumfangs von Tesla-GPUs bei verschiedenen Anwendungen wie Video-Streaming, Sprach- und Empfehlungssystemen und bietet eine Basis für das NVIDIA DeepStream SDK.

INFERENCE SUCCESS STORIES

iFLYTEK

iFLYTEK’s Voice Cloud Platform uses NVIDIA Tesla P4 and P40 GPUs for training and inference, to increase speech recognition accuracy.

VALOSSA

NVIDIA Inception Program startup Valossa is using NVIDIA GPUs to accelerate deep learning and divine viewer behavior from video data.

JD.COM

JD uses NVIDIA AI inference platform to achieve 40X increase in video detection efficiency.

NVIDIA DATA CENTER INFERENCE PLATFORMS

RECHENZENTRUM-INFERENZ-PLATTFORMEN VON NVIDIA

TESLA V100
Für den universellen Einsatz in Rechenzentren

Jeder Tesla V100-Grafikprozessor bietet eine Inferenzleistung von 125 TeraFLOPS. Mit einem einzigen Server mit 8 Tesla V100-Grafikprozessoren kann eine Rechenleistung von einem PetaFLOP erreicht werden.

TESLA P4
Für ultraeffiziente Scale-Out-Server

Der Tesla P4 beschleunigt jeden Scale-Out-Server und bietet eine beeindruckende Energieeffizienz, welche die von CPUs um das 60-Fache übersteigt.

TESLA P40
Für Inferenz-Durchsatz-Server

Der Tesla P40 bietet herausragende Inferenzleistung, INT8-Präzision und 24 GB Onboard-Speicher und sorgt damit für eine erstklassige Nutzererfahrung.

NVIDIA-RECHENZENTRUM – RECHENSOFTWARE

NVIDIA TensorRT

NVIDIA TensorRT™ ist ein hochleistungsfähiger Inferenzbeschleuniger für neuronale Hochleistungsnetzwerke zur Beschleunigung von Anwendungen wie Empfehlungs-, Spracherkennungs- und Maschinenübersetzungsdienste um das Hundertfache im Vergleich zu CPUs. Mit TensorRT können Entwickler neuronale Netzmodelle optimieren, mit hoher Genauigkeit Kalibrierungen für geringere Präzision vornehmen und die Modelle für Produktionsumgebungen in Unternehmens-und Hyperscale-Rechenzentren bereitstellen.

DeepStream-SDK

NVIDIA DeepStream for Tesla ist ein SDK zur Erstellung von Deep-Learning-basierten, skalierbaren Intelligent Video Analytics(IVA)-Anwendungen für Smart Cities und Hyperscale-Rechenzentren. DeepStream vereint NVIDIA TensorRT für Inferenz, Video-Codec-SDK für Transcode, Vorverarbeitung und Datenkurations-APIs, um so das gesamte Potenzial von Tesla-GPUs auszuschöpfen. So können Sie mit dem Tesla P4-GPU beispielsweise bis zu 30 HD-Videostreams simultan und in Echtzeit dekodieren und analysieren.

Kubernetes bei NVIDIA-GPUs

Mit Kubernetes bei NVIDIA GPUs kann in Unternehmen die Trainings- und Inferenzbereitstellung in Multi-Cloud-GPU-Clustern nahtlos nach oben skaliert werden. Mit Kubernetes können grafikprozessorbeschleunigte Deep-Learning- und HPC-Anwendungen direkt in Multi-Cloud-GPU-Cluster bereitgestellt werden.

MERKMALE UND VORTEILE

50-mal höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Tesla V100-Grafikprozessoren mit der Volta-Architektur ermöglichen in Rechenzentren eine erhebliche Steigerung des Durchsatzes von Deep-Learning-Workloads, sodass sich aus der heutigen gewaltigen Datenflut sinnvolle Informationen gewinnen lassen. Ein Server mit nur einem Tesla V100 kann bis zu 50 reine CPU-Server für Deep-Learning-Inferenz-Workloads ersetzen und bietet erheblich höheren Durchsatz bei geringeren Beschaffungskosten.

Bisher unerreichte Effizienz für Scale-Out-Server mit niedrigem Stromverbrauch

Der ultraeffiziente Tesla P4-Grafikprozessor beschleunigt in Bezug auf die Dichte optimierte Scale-Out-Server mit kleinem Formfaktor und 50 bzw. 75 W Leistungsaufnahme. Für Deep-Learning-Inferenz-Workloads beeindruckt er mit einer 52-mal höheren Energieeffizienz als CPUs, sodass Hyperscale-Kunden auch innerhalb ihrer bestehenden Infrastruktur Skalierungsmöglichkeiten nutzen und der exponentiell steigenden Nachfrage nach KI-basierten Anwendungen nachkommen können.

Dedizierte Decodier-Engine für neue KI-basierte Videodienste

Der Grafikprozessor Tesla P4 kann bis zu 39 HD-Videostreams in Echtzeit analysieren. Hierzu wird eine dedizierte Decodier-Engine mit Hardwarebeschleunigung verwendet, die parallel mit den NVIDIA CUDA® -Recheneinheiten für die Inferenz ausgeführt wird. Durch die Integration von Deep Learning in die Pipeline können Kunden intelligente, innovative Funktionen auf einem völlig neuen Niveau anbieten, die eine einfachere Videosuche sowie andere Dienste im Videobereich ermöglichen.

Schnellere Bereitstellung mit NVIDIA TensorRT und dem DeepStream SDK

Technische Übersicht zu Inferenz herunterladen NVIDIA TensorRT ist eine extrem leistungsfähige Inferenz-Engine für neuronale Netze, die in der Produktionsbereitstellung von Deep-Learning-Anwendungen eingesetzt wird. Mit TensorRT können neuronale Netze, die mit 32-Bit- oder 16-Bit-Daten trainiert wurden, für INT8-Operationen mit reduzierter Präzision auf einem Tesla P4 oder für FP16 auf einem Tesla V100 optimiert werden. Das NVIDIA DeepStream SDK nutzt die Leistungsstärke von Tesla-Grafikprozessoren, um Videosignale gleichzeitig zu decodieren und zu analysieren.

LEISTUNGSDATEN

Tesla V100: Universeller Einsatz in Rechenzentren Tesla P4 für ultraeffiziente Scale-Out-Server Tesla P40 für Server mit hohem Inferenzdurchsatz
Single-Precision-Leistung (FP32) 14 TeraFLOPS (PCIe)
15,7 TeraFLOPS (SXM2)
5,5 Teraflops 12 Teraflops
Half-Precision-Leistung (FP16) 112 TeraFLOPS (PCIe)
125 TeraFLOPS (SXM2)
Integer-Operationen (INT8) 22 TOPS* 47 TOPS*
Grafikprozessorspeicher 16 GB HBM2 8 GB 24 GB
Speicherbandbreite 900 GB/s 192 GB/s 346 GB/s
Systemschnittstelle/Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe (SXM2/NVLink) Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe
Leistung 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Video-Engine mit Hardwarebeschleunigung 1 Decodier-Engine, 2 Codier-Engines 1 Decodier-Engine, 2 Codier-Engines

*Tera-Operations per Second (Tera-Operationen pro Sekunde) mit Boost-Taktung

DIE NEUESTEN ERFOLGSGESCHICHTEN ZUM THEMA INFERENZ

iFLYTEK

Für die Sprachplattform in der Cloud von iFLYTEK werden die Grafikprozessoren Tesla P4 und P40 von NVIDIA für Training und Inferenz eingesetzt, um die Präzision der Spracherkennung zu verbessern. 

VALOSSA

Das Start-up Valossa, das zu den Teilnehmern am NVIDIA Inception-Programm gehört, setzt NVIDIA-Grafikprozessoren zur Beschleunigung von Deep Learning und zur Prognostizierung des Verhaltens von Zuschauern anhand von Videodaten ein.

JD.COM

JD erzielt mit der KI-Inferenzplattform von NVIDIA eine 40-mal höhere Effizienz bei der Videoerkennung

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

Die Grafikprozessoren Tesla V100, P40 und Tesla P4 sind ab sofort für Deep-Learning-Inferenz verfügbar.