Konvergierter Beschleuniger H100 CNX von NVIDIA

Beispiellose Leistung für GPU-gestützte, IO-intensive Workloads.

Vereinheitlichte Netzwerk- und Rechenbeschleunigung

Erleben Sie die beispiellose Leistung der konvergierten Beschleunigung. NVIDIA H100 CNX verbindet die Leistung der NVIDIA H100 Tensor Core-GPU mit den fortschrittlichen Netzwerkfunktionen der NVIDIA® ConnectX®-7 Smart Network Interface Card (SmartNIC), um GPU-gestützte, Input/Output(IO)-intensive Workloads zu beschleunigen, wie z. B. verteiltes KI-Training im Unternehmens-Rechenzentrum und 5G-Verarbeitung am Edge.

Bessere I/O-Leistung

Bessere I/O-Leistung

NVIDIA H100 und ConnectX-7 werden über einen integrierten PCIe-Gen5-Switch verbunden, der einen dedizierten Hochgeschwindigkeitspfad für Datenübertragungen zwischen GPU und Netzwerk bietet. Dadurch werden Engpässe bei Daten, die den Host durchlaufen, beseitigt und eine niedrige, vorhersehbare Latenz ermöglicht, die für zeitkritische Anwendungen wie die 5G-Signalverarbeitung wichtig ist.

Ausgewogenes, optimiertes Design

Ausgewogenes, optimiertes Design

Die Integration einer GPU und einer SmartNIC in ein einzelnes Gerät erzeugt von Natur aus eine ausgewogene Architektur. In Systemen, in denen mehrere GPUs und DPUs gewünscht sind, erzwingt eine konvergierte Beschleunigerkarte das optimale Eins-zu-Eins-Verhältnis von GPU zu NIC.  Das Design vermeidet außerdem Konflikte auf dem PCIe-Bus des Servers, sodass die Leistung mit zusätzlichen Geräten linear skaliert wird.

Kosteneinsparungen

Kosteneinsparungen

Da GPU und SmartNIC direkt miteinander verbunden sind, können Kunden Mainstream-PCIe Gen4- oder sogar Gen3-Server nutzen, um ein Leistungsniveau zu erzielen, das nur mit High-End- oder speziell entwickelten Systemen möglich ist.  Die Verwendung einer einzelnen Karte spart außerdem Strom, Platz und PCIe-Gerätesteckplätze und ermöglicht weitere Kosteneinsparungen, da eine höhere Anzahl an Beschleunigern pro Server eingesetzt werden kann.

Anwendungsbereit

Anwendungsbereit

Zentrale Software-Beschleunigungsbibliotheken wie die NVIDIA Collective Communications Library (NCCL) und Unified Communication X (UCX®) nutzen automatisch den leistungsstärksten Pfad für Datenübertragungen an GPUs. Dadurch können bestehende beschleunigte Anwendungen mit mehreren Knoten die Vorteile von H100 CNX ohne Modifikationen nutzen, was zu sofortigen Verbesserungen führt.

Schnellere und effizientere KI-Systeme

Verteiltes KI-Training mit mehreren Knoten

Verteiltes KI-Training mit mehreren Knoten

Bei der Ausführung von verteilten KI-Training-Workloads, die Datenübertragungen zwischen GPUs auf verschiedenen Hosts beinhalten, stoßen Server häufig bei der Leistung, Skalierbarkeit und Dichte an ihre Grenzen. Typische Unternehmensserver verfügen über keinen PCIe-Switch, sodass die CPU, insbesondere bei virtuellen Maschinen, einen Engpass für diesen Datenverkehr verursacht. Datenübertragungen sind an die Geschwindigkeit des Host-PCIe-Backplane gebunden. Konflikte können durch ein Ungleichgewicht zwischen der Anzahl der GPUs und NICs entstehen. Obwohl ein Eins-zu-Eins-Verhältnis ideal wäre, kann die Anzahl der PCIe-Lanes und -Steckplätze im Server die Gesamtzahl der Geräte begrenzen.

Der H100 CNX entschärft dieses Problem. Mit einem dedizierten Pfad vom Netzwerk zum Grafikprozessor ermöglicht wird es GPUDirect® RDMA ermöglicht, mit nahezu linearen Geschwindigkeiten zu arbeiten. Die Datenübertragung erfolgt auch bei PCIe Gen5-Geschwindigkeiten, unabhängig vom Host-PCIe-Backplane. Die Hochskalierung der GPU-Leistung in einem Host kann auf ausgeglichene Weise erfolgen, da das ideale Verhältnis zwischen GPU und NIC erreicht wird. Ein Server kann auch mit mehr Beschleunigungsleistung ausgestattet werden, da konvergierte Beschleuniger weniger PCIe-Lanes und Gerätesteckplätze benötigen als diskrete Karten.

Beschleunigen von AI-on-5G in der Edge

AI-on-5G-Plattformen mit NVIDIA besteht aus der hyperkonvergierten NVIDIA EGX-Plattform für Unternehmen, dem NVIDIA Aerial SDK für softwaredefinierte 5G Virtual Radio Area Networks (vRANs) und KI-Frameworks in Unternehmen, einschließlich SDKs wie NVIDIA Isaac und NVIDIA Metropolis. Diese Plattform ermöglicht es Edge-Geräten wie Videokameras und industriellen Sensoren sowie Robotern, KI zu nutzen und über 5G mit Servern zu kommunizieren.

Konvergierte Beschleuniger von NVIDIA sind die leistungsstärkste Plattform für die Ausführung von 5G-Anwendungen. Da die Daten nicht das Host-PCIe-System durchlaufen müssen, wird die Verarbeitungslatenz erheblich reduziert. Die gleiche konvergierte Beschleuniger, der zur Beschleunigung der 5G-Signalverarbeitung verwendet wird, kann auch für Edge-KI verwendet werden, wobei Multi-Instance GPU-Technologie (MIG) von NVIDIA es ermöglicht, eine GPU für mehrere verschiedene Anwendungen aufzuteilen. Die H100 CNX ermöglicht es, all diese Funktionen in einem einzigen Unternehmensserver bereitzustellen, ohne kostspieligere, speziell entwickelte Systeme bereitstellen zu müssen.

NVIDIA AI-on-5G

H100 CNX – Technische Daten

  Technische Daten
GPU-Speicher 80 GB HBM2e
Speicherbandbreite > 2,0 Tb/s
MIG-Instanzen 7 Instanzen mit je 10 GB
3 Instanzen mit je 20 GB
2 Instanzen mit je 40 GB
Konnektivität PCIe Gen5 128 GB/s
NVLINK-Brücke 2-Wege
Netzwerk 1x 400 Gb/s, 2x 200 Gb/s Ports, Ethernet oder InfiniBand
Formfaktor FHFL-Dual-Slot (Full Height, Full Length)
Max. Leistung 350 W

Tiefer Einblick in die NVIDIA Hopper-Architektur