Plattform für
Deep-Learning-Inferenz

Inferenzsoftware und -beschleuniger für die Cloud, Rechenzentren, die Peripherie und autonome Maschinen

NVIDIA setzt neue Maßstäbe bei KI-Inferenz und baut seine Führung im Bereich KI weiter aus.

Schnellere KI. Niedrigere Kosten.

Die Nachfrage nach zunehmend ausgefeilten KI-fähigen Diensten wie Bild- und Spracherkennung, Verarbeitung natürlicher Sprache, visueller Suche und personalisierten Empfehlungen steigt explosionsartig an. Gleichzeitig werden die Datensätze größer, die Netzwerke komplexer und die Latenzanforderungen werden strenger, um den Erwartungen der Benutzer zu entsprechen.

Die Inferenzplattform von NVIDIA bietet die Leistung, Effizienz und Reaktionsfähigkeit, die für die Bereitstellung von KI-Produkten und -Diensten der nächsten Generation entscheidend sind – in der Cloud, im Rechenzentrum, in der Netzwerkperipherie und in autonomen Maschinen.

Für den Download der technischen Übersicht zu Inferenz anmelden
Einfachere Bereitstellung durch den NVIDIA Triton Inference Server

Nutzen Sie das volle Potenzial von NVIDIA-Grafikprozessoren mit NVIDIA TensorRT

TensorRT ist eine hochleistungsfähige Inferenzplattform, die entscheidend zum Ausschöpfen der Leistung von NVIDIA Tensor-Recheneinheiten beiträgt. Im Vergleich zu reinen CPU-Plattformen bietet es bis zu 40-mal mehr Durchsatz und minimiert die Latenz. Mit TensorRT können Sie von jedem Framework aus starten und trainierte neuronale Netzwerke schnell in der Produktion optimieren, validieren und bereitstellen.

Einfachere Bereitstellung durch den NVIDIA Triton Inference Server

Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist für Orchestrierung, Metriken und automatische Skalierung mit Kybernetes integriert.

Leistungsstarke, einheitliche und skalierbare Deep-Learning-Inferenz

Mit einer einzigen einheitlichen Architektur können neuronale Netzwerke auf jedem Deep-Learning-Framework trainiert, mit NVIDIA TensorRT  optimiert und dann für Echtzeitinferenzierung in der Peripherie eingesetzt werden. Mit NVIDIA DGX Systems , NVIDIA Tensor Core GPUs , NVIDIA Jetson  und NVIDIA DRIVE bietet NVIDIA eine voll skalierbare End-to-End-Plattform für Deep Learning.

deep-learning-ai-inference-maximize-gpu-utilization-625-u

MAXIMALE GRAFIKPROZESSORAUSLASTUNG FÜR RECHENZENTRUM-INFERENZ

Integrieren Sie hochmoderne KI in Ihre Lösungen – mit NVIDIA Inference Server, einem Microservice für Inferenz, der die Grafikprozessorbeschleunigung maximiert und alle bekannten KI-Modelltypen hostet. Stellen Sie Inferenz schneller bereit mit diesem betriebsfähigen Inferenzserver, der die blitzschnelle Leistung von NVIDIA Tensor-Recheneinheiten optimal ausnutzt. Zudem kann er nahtlos in DevOps-Bereitstellungsmodelle integriert werden und dabei bei Bedarf mit Autoskalierern wie Kubernetes auf NVIDIA-GPUs skalieren.

Enorme Kosteneinsparungen

Um die maximale Produktivität von Servern zu gewährleisten, müssen Rechenzentrumsmanager sorgfältig zwischen Leistung und Effizienz abwägen. Ein einziger NVIDIA Tesla T4-Server kann mehrere handelsübliche CPU-Server für Deep-Learning-Inferenzanwendungen und -dienste ersetzen, den Energiebedarf senken und Einsparungen bei den Anschaffungs- und Betriebskosten ermöglichen.

Inferenzlösungen

So realisieren Sie schnellere KI.

Webinar „Achieving Faster AI with NVIDIA GPUs and NVIDIA TensorRT“ (Schnellere KI dank Grafikprozessoren und TensorRT von NVIDIA) ansehen