NVIDIA Enterprise-Referenzarchitekturen.

NVIDIA Enterprise-Referenzarchitekturen

Skalierbare KI-Fabriken aufbauen

Verwandeln Sie mit NVIDIA Enterprise-Referenzarchitekturen Ihr Rechenzentrum in eine leistungsstarke KI-Fabrik.

Überblick

Die Bausteine für KI-Erfolg

NVIDIA Enterprise-Referenzarchitekturen (Enterprise RAs) ermöglichen es Unternehmen, leistungsstarke KI-Fabriken mithilfe einer validierten, reproduzierbaren Infrastruktur zu entwerfen, bereitzustellen und zu skalieren. Diese Designs kombinieren zertifizierte Rechenleistung, Hochgeschwindigkeits-Ost-West- und Nord-Süd-Netzwerke, Beobachtbarkeitstools und Software, um eine skalierbare Leistung von Clustern mit vier Knoten bis hin zu Umgebungen im Unternehmensmaßstab zu gewährleisten.

Palantir arbeitet mit NVIDIA an der Bereitstellung einer souveränen KI-Betriebssystem-Referenzarchitektur

Die Palantir Sovereign AI OS Referenzarchitektur basiert auf NVIDIA Enterprise RAs, die getestet und für die Ausführung der vollständigen Softwaresuite von Palantir auf der NVIDIA KI-Infrastruktur geeignet sind.

Bewährtes Design und validierte Leistung

Erfahren Sie, wie Unternehmens-RAs, die auf realen Bereitstellungen und erprobten Konfigurationen basieren, die Planung vereinfachen und den ROI für eine skalierbare KI-Infrastruktur maximieren.

NVIDIA Enterprise-Referenzarchitekturen

Ihr Leitfaden für die gesamte Produktfamilie

Ab sofort sind umfassende Anleitungen für das Einrichten von Clustern im Rechenzentrum verfügbar.

Infrastruktur

NVIDIA Enterprise-Referenzarchitekturen beginnen mit validierten Hardwarekonfigurationen, einschließlich CPU-GPU-Netzwerkknotenmustern, Verkabelungsdiagrammen und Infrastrukturdetails.

Netzwerklogik

Der Logikleitfaden für Netzwerkkonfiguration und logische Architektur für Unternehmens-RAs bietet Anweisungen für die Knotenverwaltung und -bereitstellung durch VLAN-Design und Netzwerksimulation auf NVIDIA Air.

Software

Unser Software-Referenz-Stack für Enterprise Reference Architectures (RAs) beschreibt die Software für Verwaltung, Bereitstellung und Größenbestimmung von Infrastrukturclustern. Aktuelle Versionen konzentrieren sich auf Open-Source-Kubernetes mit NVIDIA AI Enterprise und NVIDIA Run:ai-Software.

Beobachtbarkeit

Der Leitfaden zur Observability für NVIDIA Enterprise-Referenzarchitekturen nutzt Open-Source-Tools wie Prometheus und Grafana, um die GPU- und Netzwerkleistung im gesamten Cluster zu überwachen. Dashboards bieten Echtzeitmesswerte für den Systemzustand und die Workload-Effizienz.

Bereitstellung

Der Bereitstellungsleitfaden für NVIDIA Enterprise-Referenzarchitekturen ist eine Sammlung von Best Practices für die Infrastruktur, die unser Team aus der Einrichtung, Bereitstellung, dem Testen und der Validierung der internen Cluster gelernt hat, auf denen wir unser Programm aufgebaut haben.

Speicher

Das NVIDIA-zertifizierte Speicherprogramm ist eine ergänzende Initiative ausgewählter Partner, die Datenspeicherleitfäden erstellt haben, die für die Integration in Unternehmens-RAs entwickelt wurden. Erfahren Sie mehr über dieses einzigartige Programm.

Anwendungsbeispiele

Für sämtliche Anwendungsfälle konzipiert

Beschleunigen Sie agentische KI, physische KI, High-Performance-Computing (HPC) und KI-Simulations-Workloads mit bewährten NVIDIA Enterprise-Referenzarchitekturen und NVIDIA-zertifizierten Systemen von globalen Partnern. Die primären Infrastruktur-Cluster-Konfigurationen für die Bereitstellung von Unternehmens-KI-Fabriken sind nachfolgend beschrieben.

NVIDIA RTX PRO AI Factory

Die NVIDIA RTX PRO™ AI Factory-Konfiguration wurde für ein breites Spektrum von Unternehmens-Workloads entwickelt, darunter generative und agentische KI, Datenanalyse, Visual Computing und technische Simulation. Bereitstellungen sind um 16- und 32-Knoten-Designpunkte herum optimiert und bieten eine ideale Balance aus Leistung, Skalierbarkeit und Bereitstellungseffizienz. NVIDIA RTX PRO-Server wurden für eine universelle Workload-Beschleunigung in den Bereichen Unternehmens-KI, Simulation und Visual Computing entwickelt und sind für PCIe-Umgebungen optimiert, sodass sie ideal für Rechenzentren mit begrenztem Platz-, Energie- und Kühlungsbedarf sind. Sie wurden speziell für moderne KI-Workloads entwickelt und bieten eine effiziente Leistung für agentische KI und Inferenz großer Sprachmodelle (LLM).

NVIDIA HGX AI Factory

Die leistungsstarke NVIDIA HGX™ AI Factory-Konfiguration wurde speziell für KI-Training und Inferenz mit mehreren Knoten in großem Maßstab entwickelt und nutzt NVIDIA HGX-Systeme. Die Architektur ist in Designpunkten mit 32, 64 und 128 Knoten verfügbar und von NVIDIA Spectrum-X-Netzwerken unterstützt. Sie verfügt über ein flexibles, Rail-optimiertes Design, das eine effiziente Integration in verschiedene Rack-Layouts ermöglicht und gleichzeitig einen hohen Durchsatz und eine Leistung mit geringer Latenz bietet. Sie bietet bahnbrechende Leistung für erfahrene KI-Benutzer, die die anspruchsvollsten Workloads ausführen, ermöglicht das Training und die Feinabstimmung großer Modelle und beschleunigt die Inferenz erheblich. Mit Genauigkeit der nächsten Generation und ultraschnellen Verbindungen erzielt die Lösung einen bis zu 15-mal höheren Token-Durchsatz.

NVIDIA NVL72 AI Factory

Die NVIDIA NVL72 AI Factory-Konfiguration wurde für das Trainieren und Bereitstellen von Modellen mit Billionen Parametern entwickelt und bietet Exascale-Rechenleistung innerhalb eines einzigen Racks. Es wurde für einen hohen Modelldurchsatz, Multi-Benutzer-Inferenz und Echtzeit-Inferenz in großem Maßstab entwickelt und ermöglicht die nächste Generation KI-gestützter Innovationen. Die Schwerpunkte des Bereitstellungsdesigns liegen auf Konfigurationen mit vier und acht Racks. Die Architektur basiert auf einem flexiblen, Rail-optimierten Netzwerk und passt sich verschiedenen Rack-Layouts und Systemdesigns an, während sie gleichzeitig eine Leistung mit hoher Bandbreite und geringer Latenz bietet. Die Plattform bietet eine außergewöhnliche KI-Fabrik-Leistung mit branchenführender Energieeffizienz und wird von NVIDIA NVLink™ der fünften Generation, FP4-Tensor-Recheneinheiten und fortschrittlichen Innovationen in der Kühlung unterstützt.

Vorteile

Der strategische Wert von Enterprise-RAs

Erschaffen Sie eine skalierbare, leistungsstarke KI-Infrastruktur mit bewährten, partnerfähigen Konfigurationen.

Spitzenleistung für KI-Workloads

Erfüllen Sie die intensiven Anforderungen an KI-Inferenz, Feinabstimmung und Training mit Architekturen, die eine vollständige GPU-Auslastung und Leistungskonsistenz über Multi-Knoten-Cluster hinweg gewährleisten.

Flexible Skalierung, vereinfachte Operationen

Erweitern Sie Ihre Infrastruktur ganz einfach und gewährleisten Sie eine skalierbare, optimierte Bereitstellung für bis zu 128 Knoten. Legen Sie die Grundlage für Full-Stack-Lösungen mit dem validierten Design der NVIDIA Unternehmens-KI Factory, das unser Software-Ökosystem nutzt.

Verringerung von Komplexität und TCO

Vereinfachen Sie Bereitstellungsprozesse und effiziente Designs, reduzieren Sie Komplexität und Gesamtbetriebskosten (TCO) und verkürzen Sie gleichzeitig die Zeit bis zur Wertschöpfung.

Supportfähigkeit

Befolgen Sie bestimmte, standardisierte Designmuster, um einen konsistenten Betrieb von einer Installation zur nächsten zu erreichen, den Bedarf an häufigem Support zu reduzieren und schnellere Lösungszeiten zu ermöglichen.

Partner

Partner für Performance

Wir sind stolz darauf, mit führenden Partnern zusammenzuarbeiten, die Unternehmens-Referenzarchitekturen und KI-Fabrik-Lösungen auf den Markt bringen. Von NVIDIA validierte Designs dieser Partner haben unser Design Review Board bestanden und bieten Anleitungen, die unsere Unterstützung in einer oder mehreren der folgenden Kategorien erhalten: Infrastruktur, Netzwerklogik und Software.

Sovereign AI OS Referenzarchitektur von Palantir und NVIDIA

Die Referenzarchitektur des Palantir Sovereign AI-Betriebssystems basiert auf NVIDIA Enterprise RAs, die getestet und für den Betrieb der gesamten Palantir Software-Suite auf der NVIDIA AI-Infrastruktur mit unseren globalen Systempartnern qualifiziert wurden. Diese souveräne KI-Architektur ist für Kunden mit latenzsensiblen Workflows, Anforderungen an die Datensouveränität und hoher geografischer Verteilung wichtig. Die Architektur bietet Unternehmen die vollständige Kontrolle über ihre Daten, KI-Modelle und Anwendungen.

Ressourcen

Erfahren Sie mehr über Enterprise-RAs

NVIDIA RTX PRO KI-Fabrik-Referenzarchitektur

Die NVIDIA RTX PRO KI-Fabrik-Konfiguration unterstützt eine Vielzahl von Unternehmens-Workloads, darunter agentische KI-Inferenz, physische und industrielle KI, Visual Computing und High-Performance-Computing für Datenanalyse und Simulation. In diesem Dokument werden die Hardwarekomponenten beschrieben, die dieser skalierbaren und modularen Architektur zugrunde liegen.

NVIDIA HGX KI-Fabrik-Referenzarchitektur

Die NVIDIA HGX KI-Fabrik-Konfiguration konzentriert sich auf leistungsstarke KI-Inferenz, Modelltraining und Feinabstimmung. In diesem Dokument werden die Hardwarekomponenten einer skalierbaren, modularen Architektur beschrieben, einschließlich Cluster-Leitfaden und Netzwerk-Fabric-Topologien, die zur Verbindung des Clusters verwendet werden.

Erschließen Sie einen enormen Token-Durchsatz mit NVIDIA Run:ai

Gemeinsames Benchmarking mit Nebius zeigt, dass anteilige GPU-Bereitstellungen mit NVIDIA Run:ai auf NVIDIA Enterprise-Referenzarchitekturen den Durchsatz und die Auslastung für Produktions-LLM-Workloads erheblich verbessern.

Übersicht über die NVIDIA Enterprise-Referenzarchitektur

Dieses Whitepaper stellt NVIDIA Enterprise-Referenzarchitekturen vor, die bewährte Anleitung für das Design und die Erstellung von KI-Fabriken für Bereitstellungen der Unternehmensklasse mit 32 bis 1.024 GPUs bieten. Diese Architekturen tragen dazu bei, die Bereitstellung einer KI-Infrastruktur zu vereinfachen, die Komplexität des Betriebs zu reduzieren und die Zeit bis zur Wertschöpfung zu beschleunigen.

Nord-Süd-Netzwerke: Der Schlüssel zu schnelleren Unternehmens-KI-Workloads

NVIDIA Enterprise-Referenzarchitekturen leiten Unternehmen bei der Bereitstellung von KI-Fabriken, die sowohl Nord-Süd- als auch Ost-West-Netzwerke nutzen, und bieten Designrezepte für eine skalierbare, sichere und leistungsstarke KI-Infrastruktur.

Bereitstellung von NVIDIA H200 NVL in großem Maßstab mit einer neuen Unternehmens-Referenzarchitektur

NVIDIA H200 NVL beschleunigt die KI-Bereitstellung mit verbessertem Speicher, Hochgeschwindigkeits-NVLink und einer optimierten Unternehmens-RA-Konfiguration.

Die KI-Fabrik von NVIDIA treibt Innovationen in Unternehmen in großem Maßstab voran

NVIDIA hat eine einheitliche KI-Fabrik aufgebaut, um generative KI und agentische Workflows unternehmensweit zu skalieren und dabei Sicherheit, Leistung und Konsistenz zu gewährleisten. Die Plattform unterstützt Hunderte von KI-Agenten, die Innovationen beschleunigen, die Software- und Hardwareentwicklung optimieren und den Lieferkettenbetrieb optimieren. Dadurch werden die Planungszeiten um über 95 Prozent reduziert und in nur einem Jahr Entwicklungsarbeit im Umfang von mehreren Jahrzehnten geleistet werden kann.

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.

Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.

Nächste Schritte

Sind Sie bereit?

Erfahren Sie mehr über die NVIDIA Enterprise KI-Fabrik.

Tauchen Sie tiefer ein in die NVIDIA Enterprise-Referenzarchitekturen

Erfahren Sie, wie NVIDIA Enterprise-Referenzarchitekturen skalierbare, präskriptive Blueprints für die Bereitstellung einer leistungsstarken KI-Infrastruktur bieten.

Cluster-Konfiguration 2-8-5-200-Spezifikationen

Cluster-Konfiguration 2-8-9-400-Spezifikationen

Cluster-Konfiguration 2-4-6-400-Spezifikationen

Cisco ist der weltweit führende Technologieanbieter, der die Art und Weise revolutioniert, wie Unternehmen im KI-Zeitalter sich vernetzen und schützen. Seit mehr als 40 Jahren verbindet Cisco die Welt auf sichere Weise. Mit seinen branchenführenden KI-gestützten Lösungen und Diensten ermöglicht Cisco seinen Kunden, Partnern und Communities, Innovationen zu fördern, die Produktivität zu steigern und die digitale Ausfallsicherheit zu stärken. Cisco verfolgt einen Zweck und verpflichtet sich weiterhin, eine stärker vernetzte und inklusive Zukunft für alle zu schaffen.

Vom NVIDIA Design Review Board unterstützte Lösungen:

Dell Technologies hilft Organisationen und Einzelpersonen dabei, ihre digitale Zukunft aufzubauen und die Art und Weise zu verändern, wie sie arbeiten, leben und spielen. Das Unternehmen bietet Kunden das branchenweit breiteste und innovativste Technologie- und Dienstleistungsportfolio für das KI-Zeitalter.

Vom NVIDIA Design Review Board unterstützte Lösungen:

HPE ist ein führendes Unternehmen im Bereich wichtiger Unternehmenstechnologien, das die Leistungsfähigkeit von KI, Cloud und Netzwerken zusammenbringt, um Unternehmen dabei zu unterstützen, mehr zu erreichen. Als Pioniere der Möglichkeiten verbessern unsere Innovationen und Expertise die Art und Weise wie Menschen leben und arbeiten. Wir ermöglichen unseren Kunden aus verschiedenen Branchen, ihre betriebliche Leistung zu optimieren, Daten in Voraussicht zu verwandeln und ihre Wirkung zu maximieren. Erfüllen Sie Ihre kühnsten Ambitionen mit HPE.

Vom NVIDIA Design Review Board unterstützte Lösungen:

Lenovo ist ein globales Technologieunternehmen mit einem Umsatz von 69 Milliarden US-Dollar, das auf Platz 196 der Fortune Global 500 steht und jeden Tag Millionen von Kunden in 180 Märkten bedient. Unsere laufende Partnerschaft mit NVIDIA konzentriert sich auf die Vision, intelligentere Technologie für alle bereitzustellen, und kombiniert Lenovo-Server mit beschleunigten GPUs. Der Lenovo Hybrid AI Advantage™ mit NVIDIA steigert die Produktivität und Innovation durch eine schnellere KI-Bereitstellung, die von der Lenovo KI-Bibliothek und einem Full-Stack-Portfolio von KI-Infrastruktur, Geräten, Lösungen und Diensten unterstützt wird.

Vom NVIDIA Design Review Board unterstützte Lösungen:

Supermicro ist ein weltweit führendes Unternehmen für anwendungsoptimierte IT-Gesamtlösungen. Supermicro wurde in San Jose, Kalifornien, gegründet und hat sich verpflichtet, erstklassige Innovationen für Unternehmen, Cloud, KI und 5G-Telekommunikations-/Edge-IT-Infrastruktur bereitzustellen. Wir sind ein Anbieter von IT-Gesamtlösungen mit Server-, KI-, Datenspeicher-, IoT-Systemen, Software und Supportdiensten. Die Expertise von Supermicro in den Bereichen Motherboard, Stromversorgung und Gehäusedesign fördert unsere Entwicklung und Produktion – somit können wir Innovationen der nächsten Generation für unsere globalen Kunden vorantreiben, von der Cloud bis zum Edge.

Vom NVIDIA Design Review Board unterstützte Lösungen: