NVIDIA Enterprise-Referenzarchitekturen

Skalierbare KI-Fabriken aufbauen

Verwandeln Sie mit NVIDIA Enterprise-Referenzarchitekturen Ihr Rechenzentrum in eine leistungsstarke KI-Fabrik.

Whitepaper lesen | NVIDIA-zertifizierte Systeme erkunden

Überblick

Die Bausteine für KI-Erfolg

NVIDIA Enterprise-Referenzarchitekturen (Enterprise RAs) ermöglichen es Unternehmen, leistungsstarke KI-Fabriken mithilfe einer validierten, reproduzierbaren Infrastruktur zu entwerfen, bereitzustellen und zu skalieren. Diese Designs kombinieren zertifizierte Rechenleistung, Hochgeschwindigkeits-Ost-West- und Nord-Süd-Netzwerke, Beobachtbarkeitstools und Software, um eine skalierbare Leistung von Clustern mit vier Knoten bis hin zu Umgebungen im Unternehmensmaßstab zu gewährleisten.

Palantir arbeitet mit NVIDIA an der Bereitstellung einer souveränen KI-Betriebssystem-Referenzarchitektur

Die Palantir Sovereign AI OS Referenzarchitektur basiert auf NVIDIA Enterprise RAs, die getestet und für die Ausführung der vollständigen Softwaresuite von Palantir auf der NVIDIA KI-Infrastruktur geeignet sind.

Pressemitteilung lesen

Bewährtes Design und validierte Leistung

Erfahren Sie, wie Unternehmens-RAs, die auf realen Bereitstellungen und erprobten Konfigurationen basieren, die Planung vereinfachen und den ROI für eine skalierbare KI-Infrastruktur maximieren.

Whitepaper lesen

NVIDIA Enterprise-Referenzarchitekturen

Ihr Leitfaden für die gesamte Produktfamilie

Ab sofort sind umfassende Anleitungen für das Einrichten von Clustern im Rechenzentrum verfügbar.

Infrastruktur

NVIDIA Enterprise-Referenzarchitekturen beginnen mit validierten Hardwarekonfigurationen, einschließlich CPU-GPU-Netzwerkknotenmustern, Verkabelungsdiagrammen und Infrastrukturdetails.

Netzwerklogik

Der Logikleitfaden für Netzwerkkonfiguration und logische Architektur für Unternehmens-RAs bietet Anweisungen für die Knotenverwaltung und -bereitstellung durch VLAN-Design und Netzwerksimulation auf NVIDIA Air.

Software

Unser Software-Referenz-Stack für Enterprise Reference Architectures (RAs) beschreibt die Software für Verwaltung, Bereitstellung und Größenbestimmung von Infrastrukturclustern. Aktuelle Versionen konzentrieren sich auf Open-Source-Kubernetes mit NVIDIA AI Enterprise und NVIDIA Run:ai-Software.

Beobachtbarkeit

Der Leitfaden zur Observability für NVIDIA Enterprise-Referenzarchitekturen nutzt Open-Source-Tools wie Prometheus und Grafana, um die GPU- und Netzwerkleistung im gesamten Cluster zu überwachen. Dashboards bieten Echtzeitmesswerte für den Systemzustand und die Workload-Effizienz.

Bereitstellung

Der Bereitstellungsleitfaden für NVIDIA Enterprise-Referenzarchitekturen ist eine Sammlung von Best Practices für die Infrastruktur, die unser Team aus der Einrichtung, Bereitstellung, dem Testen und der Validierung der internen Cluster gelernt hat, auf denen wir unser Programm aufgebaut haben.

Speicher

Das NVIDIA-zertifizierte Speicherprogramm ist eine ergänzende Initiative ausgewählter Partner, die Datenspeicherleitfäden erstellt haben, die für die Integration in Unternehmens-RAs entwickelt wurden. Erfahren Sie mehr über dieses einzigartige Programm.

Anwendungsbeispiele

Für sämtliche Anwendungsfälle konzipiert

Beschleunigen Sie agentische KI, physische KI, High-Performance-Computing (HPC) und KI-Simulations-Workloads mit bewährten NVIDIA Enterprise-Referenzarchitekturen und NVIDIA-zertifizierten Systemen von globalen Partnern. Die primären Infrastruktur-Cluster-Konfigurationen für die Bereitstellung von Unternehmens-KI-Fabriken sind nachfolgend beschrieben.

NVIDIA RTX PRO AI Factory
NVIDIA HGX AI Factory
NVIDIA NVL72 AI Factory

NVIDIA RTX PRO AI Factory

Die NVIDIA RTX PRO™ AI Factory-Konfiguration wurde für ein breites Spektrum von Unternehmens-Workloads entwickelt, darunter generative und agentische KI, Datenanalyse, Visual Computing und technische Simulation. Bereitstellungen sind um 16- und 32-Knoten-Designpunkte herum optimiert und bieten eine ideale Balance aus Leistung, Skalierbarkeit und Bereitstellungseffizienz. NVIDIA RTX PRO-Server wurden für eine universelle Workload-Beschleunigung in den Bereichen Unternehmens-KI, Simulation und Visual Computing entwickelt und sind für PCIe-Umgebungen optimiert, sodass sie ideal für Rechenzentren mit begrenztem Platz-, Energie- und Kühlungsbedarf sind. Sie wurden speziell für moderne KI-Workloads entwickelt und bieten eine effiziente Leistung für agentische KI und Inferenz großer Sprachmodelle (LLM).

Cluster-Konfigurationsspezifikationen anzeigen

NVIDIA HGX AI Factory

Die leistungsstarke NVIDIA HGX™ AI Factory-Konfiguration wurde speziell für KI-Training und Inferenz mit mehreren Knoten in großem Maßstab entwickelt und nutzt NVIDIA HGX-Systeme. Die Architektur ist in Designpunkten mit 32, 64 und 128 Knoten verfügbar und von NVIDIA Spectrum-X-Netzwerken unterstützt. Sie verfügt über ein flexibles, Rail-optimiertes Design, das eine effiziente Integration in verschiedene Rack-Layouts ermöglicht und gleichzeitig einen hohen Durchsatz und eine Leistung mit geringer Latenz bietet. Sie bietet bahnbrechende Leistung für erfahrene KI-Benutzer, die die anspruchsvollsten Workloads ausführen, ermöglicht das Training und die Feinabstimmung großer Modelle und beschleunigt die Inferenz erheblich. Mit Genauigkeit der nächsten Generation und ultraschnellen Verbindungen erzielt die Lösung einen bis zu 15-mal höheren Token-Durchsatz.

Cluster-Konfigurationsspezifikationen anzeigen

NVIDIA NVL72 AI Factory

Die NVIDIA NVL72 AI Factory-Konfiguration wurde für das Trainieren und Bereitstellen von Modellen mit Billionen Parametern entwickelt und bietet Exascale-Rechenleistung innerhalb eines einzigen Racks. Es wurde für einen hohen Modelldurchsatz, Multi-Benutzer-Inferenz und Echtzeit-Inferenz in großem Maßstab entwickelt und ermöglicht die nächste Generation KI-gestützter Innovationen. Die Schwerpunkte des Bereitstellungsdesigns liegen auf Konfigurationen mit vier und acht Racks. Die Architektur basiert auf einem flexiblen, Rail-optimierten Netzwerk und passt sich verschiedenen Rack-Layouts und Systemdesigns an, während sie gleichzeitig eine Leistung mit hoher Bandbreite und geringer Latenz bietet. Die Plattform bietet eine außergewöhnliche KI-Fabrik-Leistung mit branchenführender Energieeffizienz und wird von NVIDIA NVLink™ der fünften Generation, FP4-Tensor-Recheneinheiten und fortschrittlichen Innovationen in der Kühlung unterstützt.

Cluster-Konfigurationsspezifikationen anzeigen

Vorteile

Der strategische Wert von Enterprise-RAs

Erschaffen Sie eine skalierbare, leistungsstarke KI-Infrastruktur mit bewährten, partnerfähigen Konfigurationen.

Spitzenleistung für KI-Workloads

Erfüllen Sie die intensiven Anforderungen an KI-Inferenz, Feinabstimmung und Training mit Architekturen, die eine vollständige GPU-Auslastung und Leistungskonsistenz über Multi-Knoten-Cluster hinweg gewährleisten.

Flexible Skalierung, vereinfachte Operationen

Erweitern Sie Ihre Infrastruktur ganz einfach und gewährleisten Sie eine skalierbare, optimierte Bereitstellung für bis zu 128 Knoten. Legen Sie die Grundlage für Full-Stack-Lösungen mit dem validierten Design der NVIDIA Unternehmens-KI Factory, das unser Software-Ökosystem nutzt.

Verringerung von Komplexität und TCO

Vereinfachen Sie Bereitstellungsprozesse und effiziente Designs, reduzieren Sie Komplexität und Gesamtbetriebskosten (TCO) und verkürzen Sie gleichzeitig die Zeit bis zur Wertschöpfung.

Supportfähigkeit

Befolgen Sie bestimmte, standardisierte Designmuster, um einen konsistenten Betrieb von einer Installation zur nächsten zu erreichen, den Bedarf an häufigem Support zu reduzieren und schnellere Lösungszeiten zu ermöglichen.

Partner

Partner für Performance

Wir sind stolz darauf, mit führenden Partnern zusammenzuarbeiten, die Unternehmens-Referenzarchitekturen und KI-Fabrik-Lösungen auf den Markt bringen. Von NVIDIA validierte Designs dieser Partner haben unser Design Review Board bestanden und bieten Anleitungen, die unsere Unterstützung in einer oder mehreren der folgenden Kategorien erhalten: Infrastruktur, Netzwerklogik und Software.

Erste Schritte

Sovereign AI OS Referenzarchitektur von Palantir und NVIDIA

Die Referenzarchitektur des Palantir Sovereign AI-Betriebssystems basiert auf NVIDIA Enterprise RAs, die getestet und für den Betrieb der gesamten Palantir Software-Suite auf der NVIDIA AI-Infrastruktur mit unseren globalen Systempartnern qualifiziert wurden. Diese souveräne KI-Architektur ist für Kunden mit latenzsensiblen Workflows, Anforderungen an die Datensouveränität und hoher geografischer Verteilung wichtig. Die Architektur bietet Unternehmen die vollständige Kontrolle über ihre Daten, KI-Modelle und Anwendungen.

Mehr erfahren

Ressourcen

Erfahren Sie mehr über Enterprise-RAs

NVIDIA RTX PRO KI-Fabrik-Referenzarchitektur

Die NVIDIA RTX PRO KI-Fabrik-Konfiguration unterstützt eine Vielzahl von Unternehmens-Workloads, darunter agentische KI-Inferenz, physische und industrielle KI, Visual Computing und High-Performance-Computing für Datenanalyse und Simulation. In diesem Dokument werden die Hardwarekomponenten beschrieben, die dieser skalierbaren und modularen Architektur zugrunde liegen.

Whitepaper lesen

NVIDIA HGX KI-Fabrik-Referenzarchitektur

Die NVIDIA HGX KI-Fabrik-Konfiguration konzentriert sich auf leistungsstarke KI-Inferenz, Modelltraining und Feinabstimmung. In diesem Dokument werden die Hardwarekomponenten einer skalierbaren, modularen Architektur beschrieben, einschließlich Cluster-Leitfaden und Netzwerk-Fabric-Topologien, die zur Verbindung des Clusters verwendet werden.

Whitepaper lesen

Erschließen Sie einen enormen Token-Durchsatz mit NVIDIA Run:ai

Gemeinsames Benchmarking mit Nebius zeigt, dass anteilige GPU-Bereitstellungen mit NVIDIA Run:ai auf NVIDIA Enterprise-Referenzarchitekturen den Durchsatz und die Auslastung für Produktions-LLM-Workloads erheblich verbessern.

Blogbeitrag lesen

Übersicht über die NVIDIA Enterprise-Referenzarchitektur

Dieses Whitepaper stellt NVIDIA Enterprise-Referenzarchitekturen vor, die bewährte Anleitung für das Design und die Erstellung von KI-Fabriken für Bereitstellungen der Unternehmensklasse mit 32 bis 1.024 GPUs bieten. Diese Architekturen tragen dazu bei, die Bereitstellung einer KI-Infrastruktur zu vereinfachen, die Komplexität des Betriebs zu reduzieren und die Zeit bis zur Wertschöpfung zu beschleunigen.

Whitepaper lesen

Nord-Süd-Netzwerke: Der Schlüssel zu schnelleren Unternehmens-KI-Workloads

NVIDIA Enterprise-Referenzarchitekturen leiten Unternehmen bei der Bereitstellung von KI-Fabriken, die sowohl Nord-Süd- als auch Ost-West-Netzwerke nutzen, und bieten Designrezepte für eine skalierbare, sichere und leistungsstarke KI-Infrastruktur.

Blogbeitrag lesen

Bereitstellung von NVIDIA H200 NVL in großem Maßstab mit einer neuen Unternehmens-Referenzarchitektur

NVIDIA H200 NVL beschleunigt die KI-Bereitstellung mit verbessertem Speicher, Hochgeschwindigkeits-NVLink und einer optimierten Unternehmens-RA-Konfiguration.

Blogbeitrag lesen

Die KI-Fabrik von NVIDIA treibt Innovationen in Unternehmen in großem Maßstab voran

NVIDIA hat eine einheitliche KI-Fabrik aufgebaut, um generative KI und agentische Workflows unternehmensweit zu skalieren und dabei Sicherheit, Leistung und Konsistenz zu gewährleisten. Die Plattform unterstützt Hunderte von KI-Agenten, die Innovationen beschleunigen, die Software- und Hardwareentwicklung optimieren und den Lieferkettenbetrieb optimieren. Dadurch werden die Planungszeiten um über 95 Prozent reduziert und in nur einem Jahr Entwicklungsarbeit im Umfang von mehreren Jahrzehnten geleistet werden kann.

Entdecken Sie wichtige Ergebnisse

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.

Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.

Entdecken Sie wichtige Ergebnisse

Nächste Schritte

Sind Sie bereit?

Erfahren Sie mehr über die NVIDIA Enterprise KI-Fabrik.

Erste Schritte

Tauchen Sie tiefer ein in die NVIDIA Enterprise-Referenzarchitekturen

Erfahren Sie, wie NVIDIA Enterprise-Referenzarchitekturen skalierbare, präskriptive Blueprints für die Bereitstellung einer leistungsstarken KI-Infrastruktur bieten.

Whitepaper lesen

CPUs (Qualifiziert)	2x 64c Intel Xeon 2x 64c AMD EPYC
GPUs	8x NVIDIA RTX PRO™ 6000 Blackwell Server Edition
Netzwerke (Ost-West)	4x NVIDIA® BlueField®-3 B3140H (1x 400 Gb)
Netzwerke (Nord-Süd)	1 x BlueField-3, B3220 (2 x 200 Gbit)
Hostspeicher (min)	Min 1.024 GB DDR5 ECC (1x DIMM pro Steckplatz)
Host-Boot-Laufwerk (min)	1 x 1 TB NVMe
Host-Datenspeicher (Min)	2 x 4 TB NVMe

CPUs (Qualifiziert)	2x 64c Intel Xeon 2x 64c AMD EPYC
GPUs	8x NVIDIA Blackwell Ultra GPU
Netzwerke (Ost-West)	8x NVIDIA® BlueField®-3 B3140H (1x 400 Gb)
Netzwerke (Nord-Süd)	1 x BlueField-3, B3220 (2 x 200 Gbit)
Hostspeicher (min)	Min. 1.536 GB DDR5 ECC (1x DIMM pro Steckplatz)
Host-Boot-Laufwerk (min)	1 x 1 TB NVMe
Host-Datenspeicher (Min)	2 x 4 TB NVMe

CPUs	2x 72c NVIDIA Grace™ (36 pro Rack)
GPUs	4x NVIDIA Blackwell-GPUs (72 pro Rack)
Netzwerke (Ost-West)	4x NVIDIA® ConnectX®-7 (1x 400 Gb)
Netzwerke (Nord-Süd)	2x NVIDIA BlueField®-3 B3240 (4x 200 Gb)

NVIDIA Enterprise-Referenzarchitekturen

Skalierbare KI-Fabriken aufbauen

Die Bausteine für KI-Erfolg

Palantir arbeitet mit NVIDIA an der Bereitstellung einer souveränen KI-Betriebssystem-Referenzarchitektur

Bewährtes Design und validierte Leistung

Ihr Leitfaden für die gesamte Produktfamilie

Infrastruktur

Netzwerklogik

Software

Beobachtbarkeit

Bereitstellung

Speicher

Für sämtliche Anwendungsfälle konzipiert

NVIDIA RTX PRO AI Factory

NVIDIA HGX AI Factory

NVIDIA NVL72 AI Factory

Der strategische Wert von Enterprise-RAs

Spitzenleistung für KI-Workloads

Flexible Skalierung, vereinfachte Operationen

Verringerung von Komplexität und TCO

Supportfähigkeit

Partner für Performance

Sovereign AI OS Referenzarchitektur von Palantir und NVIDIA

Erfahren Sie mehr über Enterprise-RAs

NVIDIA RTX PRO KI-Fabrik-Referenzarchitektur

NVIDIA HGX KI-Fabrik-Referenzarchitektur

Erschließen Sie einen enormen Token-Durchsatz mit NVIDIA Run:ai

Übersicht über die NVIDIA Enterprise-Referenzarchitektur

Nord-Süd-Netzwerke: Der Schlüssel zu schnelleren Unternehmens-KI-Workloads

Bereitstellung von NVIDIA H200 NVL in großem Maßstab mit einer neuen Unternehmens-Referenzarchitektur

Die KI-Fabrik von NVIDIA treibt Innovationen in Unternehmen in großem Maßstab voran

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

Nächste Schritte

Sind Sie bereit?

Tauchen Sie tiefer ein in die NVIDIA Enterprise-Referenzarchitekturen

Cluster-Konfiguration 2-8-5-200-Spezifikationen

Cluster-Konfiguration 2-8-9-400-Spezifikationen

Cluster-Konfiguration 2-4-6-400-Spezifikationen