NVIDIA NetQ

Nutzen Sie ganzheitliche Echtzeit-Transparenz, Fehlerbehebung und DevOps für ein modernes Rechenzentrumsnetzwerk.

Einführung

Netzwerkbetrieb für KI-Fabriken mit NetQ

NVIDIA NetQ™ ist ein hochskalierbares Toolset für den Netzwerkbetrieb, das Transparenz, Fehlerbehebung, Korrelation und Validierung Ihrer NVIDIA NVLink™-Switches und NVIDIA® Cumulus®-Fabrics in Echtzeit ermöglicht. NetQ nutzt Telemetrie und liefert handlungsrelevante Erkenntnisse zum Zustand Ihres Rechenzentrumsnetzwerks, um einen reibungslosen Betrieb Ihrer KI-Netzwerk-Fabric zu gewährleisten.

Überblick

Funktionsweise von NetQ

Erfassung, Verarbeitung und Visualisierung von Daten

NetQ verwendet Agenten auf allen Switches und Hosts, um Telemetriedaten im gesamten Netzwerk zu erfassen. Als zentraler Kontrollpunkt speichert und verarbeitet NetQ Informationen, um handlungsrelevante Erkenntnisse zu liefern und für vollständige Transparenz zu sorgen. Die umfassende grafische Benutzeroberfläche (GUI) hebt Probleme und Warnmeldungen schnell hervor, was Betriebsabläufe vereinfacht und die Effizienz steigert.

Vorteile

Welche Vorteile bietet NetQ für den Netzwerkbetrieb in KI-Fabriken?

NetQ ist eine ganzheitliche Beobachtbarkeitsplattform, die nativ Streaming-Telemetrie für hardwarebeschleunigte Erkennung und Berichterstattung zu Anomalien auf Datenebene und vorübergehenden Netzwerkproblemen unterstützt. Sie sorgt für maximale Netzwerkleistung bei KI-Training und -Inferenz.

Upgrades optimieren

Erleben Sie ein einfaches Netzwerkmanagement per Knopfdruck mit der intuitiven GUI von NetQ.

Gewinnen Sie Erkenntnisse in Echtzeit

Korrelieren Sie die Konfiguration und den Betriebsstatus und identifizieren und verfolgen Sie Statusänderungen für Ihr gesamtes Rechenzentrum.

Reduzieren Sie Ausfallzeiten

Optimieren Sie KI-Vorgänge mit Schnellwarnungen, schnellerer Fehlerbehebung und proaktiver Erkennung.

Schnellere Fehlerbehebung

Erkennen Sie fehlerhafte Netzwerkzustände und erhalten Sie Warnungen mit präzisen Fehlerstandortdaten.

Weniger Komplexität

Vereinfachen Sie Vorgänge und erhöhen Sie die Bedienereffizienz, indem Sie Probleme schnell durch Visualisierungen und Warnungen hervorheben.

Grundursachen feststellen

Verfolgen Sie Netzwerkpfade, wiederholen Sie den Netzwerkstatus jederzeit mit einem früheren Zustand, überprüfen Sie Fabric-weite Ereignisänderungsprotokolle und stellen Sie die Grundursache der Zustandsabweichung fest.

Wichtigste Features

Was Sie mit NetQ erhalten

Mit Funktionen für vollständige kontinuierliche Integration und Bereitstellung (CI/CD) erleichtert NetQ die Verwaltung und Bereitstellung von Netzwerkelementen in Ihrer KI-Fabric. Dabei hilft Ihnen eine umfassende Suite von Betriebsfunktionen die Transparenz, Fehlerbehebung, Validierung, Rückverfolgung und vergleichende Rückblicke beinhalten.

  • Netzwerkmanagement: Greifen Sie per Knopfdruck auf leistungsstarke Tools zur Verwaltung Ihrer NVIDIA Cumulus Linux- und NVOS-Umgebungen zu.
  • Fortschrittliche Telemetrie: Erfassen Sie Echtzeit-Daten, die umfassende Fehlerbehebung, Transparenz und automatisierte Workflows über eine einzige GUI ermöglichen.
  • Snapshot und Vergleich: Vergleichen Sie frühere Netzwerkkonfigurationen einfach mit Konfigurationen, nachdem Netzwerkänderungen vorgenommen wurden, um das Risiko von Unterbrechungen zu vermeiden.
  • Netzwerkweite Transparenz: Sehen Sie sich mit der umfassenden GUI von NetQ Echtzeit-Visualisierungen zum Zustand Ihres Netzwerks an.
  • Fluss-Telemetrie: Analysieren Sie die Fabric-weiten Latenz- und Pufferbelegungsdaten aller Pfade eines 4-Tuple- oder 5-Tuple-Flusses, um Staupunkte zu erkennen.
  • Präventive Validierung: Reduzieren Sie manuelle Fehler, bevor sie in die Produktion eingeführt werden.
  • Diagnostische Fehlerbehebung: Diagnostizieren Sie die Ursache von Zustandsabweichungen mit fortschrittlichen Diagnosetools.
  • gNMI-Erfassung: Verwenden Sie die Spezifikation der gRPC Network Management Interface (gNMI), um WJH-Telemetriedaten vom NetQ-Agenten zu streamen.
  • RoCE-Unterstützung: Überwachen Sie mit NetQ Ihre Remote Direct-Memory Access (RDMA) over Converged Ethernet (RoCE)-Umgebung, um handlungsrelevante Einblicke in Ihre KI-Fabric zu erhalten.

Ressourcen

NetQ genauer erkunden

NVIDIA NetQ-Datenblatt

Erfahren Sie mehr über die Funktionen und Vorteile von NetQ, einem modernen Betriebstool, das eine ganzheitliche Echtzeit-Sichtbarkeit und Fehlerbehebung Ihres Rechenzentrumsnetzwerks ermöglicht.

NVIDIA NetQ-Benutzerhandbuch

Konsultieren Sie eine Dokumentation zur Bereitstellung, Konfiguration, Überwachung und Fehlerbehebung Ihres Netzwerks in Ihrer Rechenzentrumsumgebung.

Nächste Schritte

Sind Sie bereit, loszulegen?

Probieren Sie die NVIDIA Netzwerksoftware kostenlos aus

Simulieren Sie eine vollautomatisierte Netzwerktopologie mit NVIDIA Air.

Entdecken Sie Networking im Zeitalter der KI

Das Netzwerk ist letztendlich für die KI-Leistung verantwortlich und dient als Rückgrat des Rechenzentrums, um die Leistungsfähigkeit generativer KI zu nutzen.

Erfahren Sie mehr über die Spectrum-X Ethernet-Plattform

Die Spectrum-X Ethernet-Plattform mit dem NVIDIA Spectrum-X™ Ethernet-Switch wurde speziell zur Verbesserung der Leistung und Effizienz von Ethernet-basierter KI-Infrastruktur entwickelt.