Plattform für Deep-Learning-Inferenz Inferenzsoftware und -beschleuniger für die Cloud, Rechenzentren, die Peripherie und autonome Maschinen
Nutzen Sie das volle Potenzial von NVIDIA-Grafikprozessoren mit NVIDIA TensorRT NVIDIA® TensorRT™ ist eine hochleistungsfähige Inferenzplattform, die entscheidend zum Ausschöpfen der Leistung von NVIDIA Tensor-Recheneinheiten beiträgt. Im Vergleich zu reinen CPU-Plattformen bietet sie bis zu 40-mal mehr Durchsatz und minimiert die Latenz. Mit TensorRT können Sie von jedem Framework aus starten und trainierte neuronale Netzwerke schnell in der Produktion optimieren, validieren und bereitstellen. TensorRT ist auch im NVIDIA NGC-Katalog verfügbar.
Einfachere Bereitstellung durch den NVIDIA Triton Inference Server Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist für Orchestrierung, Metriken und automatische Skalierung mit Kybernetes integriert. WEITERE INFORMATIONEN
Leistungsstarke, einheitliche und skalierbare Deep-Learning-Inferenz Mit einer einzigen einheitlichen Architektur können neuronale Netzwerke auf jedem Deep-Learning-Framework trainiert, mit NVIDIA TensorRT optimiert und dann für Echtzeitinferenzierung in der Peripherie eingesetzt werden. Mit NVIDIA DGX™ Systems , NVIDIA Tensor Core GPUs , NVIDIA Jetson™ und NVIDIA DRIVE™, NVIDIA bietet eine durchgängige, vollständig skalierbare Plattform für Deep Learning, wie in der MLPerf-Benchmark-Suite zu sehen.
Enorme Kosteneinsparungen Um die maximale Produktivität von Servern zu gewährleisten, müssen Rechenzentrumsmanager sorgfältig zwischen Leistung und Effizienz abwägen. Ein einziger NVIDIA Tesla T4-Server kann mehrere handelsübliche CPU-Server für Deep-Learning-Inferenzanwendungen und -dienste ersetzen, den Energiebedarf senken und Einsparungen bei den Anschaffungs- und Betriebskosten ermöglichen.