NVIDIA Mission Control

Führen Sie Modelle aus und automatisieren Sie das Wesentliche.

Überblick

Die weltweit fortschrittlichste Expertise im Bereich KI-Fabrik – jetzt für jedes Unternehmen zugänglich

NVIDIA Mission Control™ optimiert alle Aspekte der KI-Fabrik – von der Planung und Orchestrierung von Entwickler-Workloads bis hin zur Überwachung und autonomen Wiederherstellung – und ermöglicht es Plattformteams, mit vollständig unterstützter Software effizient zu arbeiten und zuverlässig zu skalieren. Es unterstützt NVIDIA Blackwell und NVIDIA Rubin-Rechenzentren für die neuesten Grenzen der KI und kombiniert Echtzeit-Transparenz mit präziser Kontrolle über Leistung, Energie und Kühlung mit kontinuierlich verfügbarer Ausfallsicherheit für einen maximierten ROI der KI-Fabrik. Mit Mission Control kann jedes Unternehmen KI mit der Effizienz heutiger Hyperscaler ausführen und die Produktion von KI-Token beschleunigen.

KI-Fabriken verwalten und betreiben

NVIDIA Mission Control vereinfacht KI-Abläufe – von der Cluster-Bereitstellung über die Workload-Orchestrierung bis hin zur Integration des Gebäudemanagements – mit Agilität, Ausfallsicherheit und Hyperscale-Effizienz für Unternehmen.

Von Hardware im Rack-Maßstab bis hin zu planbarer KI-Infrastruktur

Für KI-Architekten und HPC-Plattformbetreiber besteht das Problem nicht nur im Racking und Stapeln der Hardware – es geht vielmehr darum, dieses Rack in eine Reihe sicherer, leistungsstarker und benutzerfreundlicher Ressourcen für Endbenutzer zu verwandeln. Ein validierter Software-Stack, wie NVIDIA Mission Control, bietet die Tools für die Multi-Knoten-Planung und unterstützt sowohl Slurm als auch Kubernetes.

Technologie

KI-Rechenzentrumsbetrieb und -Orchestrierung

Vereinfachen Sie die Bereitstellung und den Betrieb von KI-Fabriken während des gesamten Cluster-Lebenszyklus.

Fortschrittliche Energieoptimierungen

Ausführen mit 85 % Energie bei 93 % Leistungsdurchsatz in energiebegrenzten oder kostenbewussten Umgebungen mit Zugriff auf validierte Implementierungen der neuesten Energieinnovationen von NVIDIA.

Integration des Gebäudemanagements

Verbessern Sie die Kontrolle von Energie- und Kühlungsereignissen, einschließlich schneller Leckageerkennung, mit verbesserter Koordination von System- und Rechenzentrumseinrichtungen, die durch Automatisierung und integrierte Dashboards unterstützt werden.

Autonomes Wiederherstellungssystem

Probleme 10-mal schneller ohne manuellen Eingriff identifizieren, isolieren und wiederherstellen, was zu schnelleren Trainings- und Inferenzläufen für maximierte Entwicklerproduktivität und integrierte Ausfallsicherheit der Infrastruktur führt.

Kontinuierliche Integritätsprüfungen

Validieren Sie die Hardware- und Cluster-Leistung über den gesamten Lebenszyklus Ihrer Infrastruktur mit Zugriff auf Zustandsprüfungen mit der Option, automatisierte Aktionen auf der Grundlage von voreingestellten Regeln von NVIDIA auszulösen.

Dynamische Workload-Orchestrierung

Steigern Sie die GPU-Verfügbarkeit und -Auslastung mit der enthaltenen NVIDIA Run:ai-Technologie oder integrieren Sie Slurm und Ihr eigenes Kubernetes in unsere Cluster-Management-Plattform.

Flexible, sichere Konfiguration

Integrieren Sie NVIDIA Mission Control-Dienste mit vertrauenswürdigen ISV-Lösungen für flexible, sichere Konfigurationen, die validierte Namespace-Isolationen bieten und die Anforderungen Ihres Unternehmens erfüllen.

Neuerscheinungen

NVIDIA Mission Control 2.3

NVIDIA Mission Control 2.3 ist vollständig in das NVIDIA-Ökosystem integriert und unterstützt NVIDIA GB200 NVL72 und NVIDIA GB300 NVL72. Es verfügt über eine neue einheitliche Authentifizierung über Dienste hinweg und eine zusätzliche Option für eine virtualisierte Steuerungsebene, um die Flexibilität und Skalierbarkeit zu verbessern. Darüber hinaus bietet Mission Control jetzt die Bereitstellung für Air-Gap-Umgebungen und bietet Validierungsprüfungen zur Leckageerkennung. NVIDIA DGX-Systeme mit NVIDIA Blackwell-Architekturen haben jetzt außerdem Zugriff auf den gesamten Umfang der Mission Control-Funktionen, einschließlich der Suite für die autonome Wiederherstellungs-Engine.

NVIDIA Mission Control umfasst den Zugriff auf die neuesten Innovationen von NVIDIA im Bereich Energieoptimierung in einem validierten Workflow mit benutzerfreundlichen grafischen Oberflächen für die Überwachung und Verwaltung von Aktionen auf Cluster-, System- und Workload-Ebene. Mit Mission Control können Administratoren auf den Domänen-Energiedienst zugreifen und clusterweite, dynamische und auftragsbezogene Richtlinien zur Energieoptimierung festlegen.

Vorteile

Warum NVIDIA Mission Control?

Sofortige betriebliche Agilität

Bringen Sie Agilität in den KI-Fabrikbetrieb mit nahtlosem Multi-Knoten-Training und Inferenzorchestrierung, Flexibilität bei der Integration in Software von Drittanbietern sowie fortschrittlicher Energie- und Kühlungsautomatisierung.

Umfassende Überwachung

Erhalten Sie einen tiefen Einblick in die Workload-Verfügbarkeit, die Cluster-Infrastruktur und die Einrichtungen mit integrierten, einsatzbereiten Grafana-Dashboards und ständig aktiven Zustandsprüfungen, die Alarmmüdigkeit reduzieren und die Leistung optimieren.

Integrierte Ausfallsicherheit

Definieren Sie die Ausfallsicherheit moderner Rechenzentren neu mit einer autonomen End-to-End-Wiederherstellungs-Engine, die von der Anomalieerkennung über die Isolation bis hin zum schnellen Neustart von Aufträgen und automatisierter Hardware-Fehlerbehebung reicht.

Beschleunigte KI-Token-Produktion

Maximieren Sie die Leistung von KI-Fabriken mit durchgängig validierten Workflows, kontinuierlichem Betrieb für verbessertes Umsatzpotenzial und NVIDIA Enterprise Support für einen neuen Standard der Unternehmens-KI in großem Maßstab.

Partner

Bereitstellen und Ausführen von KI-Fabriken mit führenden Systemanbietern

Konfigurieren, validieren und betreiben Sie KI-Fabriken, die auf NVIDIA Grace™ Blackwell NVL72 basieren und von führenden Systemanbietern bereitgestellt werden, die NVIDIA Mission Control für ihre Systeme getestet und validiert haben.

Lösungen

Alles, was Sie für eine erstklassige KI-Fabrik benötigen

NVIDIA liefert alle Bausteine für eine KI-Fabrik. Zusammen bieten NVIDIA Mission Control und NVIDIA AI Enterprise modernste Infrastruktur und Workload-Management sowie Entwicklertools für Produktions-KI, sodass Unternehmen die transformative Kraft von KI mit beispielloser, praktischer Skalierbarkeit nutzen können.

NVIDIA DGX SuperPOD

Erstklassige KI-Infrastruktur, speziell für die einzigartigen Anforderungen der KI entwickelt.

NVIDIA DGX SuperPOD™ ist eine gebrauchsfertige Lösung für die KI-Rechenzentrumsinfrastruktur, die jedem Benutzer und Workload kompromisslose Leistung bietet. DGX SuperPOD ist mit jedem NVIDIA DGX-System konfigurierbar und bietet eine beschleunigte Infrastruktur der Spitzenklasse mit skalierbarer Leistung für die anspruchsvollsten KI-Trainings- und Inferenz-Workloads.

NVIDIA AI Enterprise

Cloud-native Softwareplattform, die KI in der Produktion mit Tools für Entwickler optimiert.

Die Softwaresuite NVIDIA AI Enterprise beinhaltet die besten Datenwissenschaftstools, vorabtrainierte Modelle, optimierte Frameworks und mehr von NVIDIA. Dazu gehört außerdem eine umfassende Unterstützung durch den NVIDIA-Unternehmenssupport. NVIDIA AI Enterprise ist für die Ausführung auf Mission Control optimiert.

Nächste Schritte

Sind Sie bereit?

Optimieren Sie KI-Abläufe mit NVIDIA Mission Control, um KI-Innovationen in Ihrem Unternehmen zu fördern.

Benötigen Sie Unterstützung für NVIDIA Mission Control?

Bei NVIDIA DGX Enterprise Support und Services erhalten Sie fachkundigen Support, schnellere Ergebnisse und optimale Beratung.

NVIDIA Mission Control-Dokumentation

Greifen Sie auf Benutzerhandbücher und Versionshinweise für NVIDIA Mission Control zu.