Slinky – Slurm- und Kubernetes-GPU-Integration

Slinky

Slurm-Workload-Management für Kubernetes.

Überblick

Slurm-Funktionen in Kubernetes bringen

Slinky, ein Open-Source-Projekt, das von SchedMD (jetzt Teil von NVIDIA) entwickelt wurde, ermöglicht die nahtlose Interoperabilität zwischen Slurm und Kubernetes. Es werden Tools vorgestellt, mit denen Benutzer Slurm-Cluster in Kubernetes-Umgebungen ausführen und verwalten können, die auf nahezu jedem GPU-beschleunigten Cluster basieren. Dies bietet breite Hardwareunterstützung, die für die heterogenen Rechenzentren von heute entwickelt wurde. Ganz gleich, ob Sie High-Performance-Computing-Workloads (HPC) verwalten oder in Cloud-nativen Umgebungen arbeiten: Slinky hilft Ihnen, das Beste aus beiden Welten für eine effiziente Ressourcenverwaltung und -planung zu kombinieren.

Support für Slinky erhalten

Support-, Trainings- und Beratungsdienste für Slurm und Slinky sind jetzt von NVIDIA verfügbar. Von der Implementierung bis zur Anpassung erhalten Sie Direct-to-Engineering-Hilfe von Experten, um Slinky voll auszuschöpfen.

Ausführung großer GPU-Workloads

Die meisten Unternehmen haben jahrelang in Slurm-Job-Skripte investiert und stehen beim Übergang zu Kubernetes vor Herausforderungen, ohne zwei separate Umgebungen aufrechtzuerhalten. In diesem Blog erfahren Sie, wie Slinky Kubernetes-Umgebungen in großem Maßstab verwaltet.

Was ist Slinky?

Slinky ist ein Open-Source-Toolkit für die Integration von Slurm in Kubernetes, wodurch es ideal für hybride Rechenszenarien ist und sowohl HPC- als auch Cloud-nativen KI-Benutzern Flexibilität und Benutzerfreundlichkeit bietet.

Technologie

Ein genauerer Blick auf Slinky

Zu den Hauptkomponenten des Slinky-Toolkits gehören Slurm Operator und Slurm Bridge. Slurm Operator führt vollständige Slurm-Cluster auf einer Kubernetes-Infrastruktur aus und verwaltet den vollständigen Lebenszyklus von Slurm-Daemons als Pods. Slurm Bridge bringt Slurm-Scheduling in native Kubernetes-Workloads und ermöglicht es Slurm, als Kubernetes-Scheduler für Pods zu fungieren.

Slurm Operator

Slurm Operator ist der Kern der Slinky-Funktionalität. Es verwaltet erfolgreich die Skalierung von Slurm-Knoten innerhalb von Kubernetes. Slinky integriert Slurm Operator, um Aspekte von Slurm zu nutzen, wie z. B. die Job-Zuweisung, die Buchhaltung und Abhängigkeiten, Fair-Share und die Prioritätsplanung.

Slurm Bridge

Slurm Bridge ermöglicht die schnelle, intelligente Planung von Workloads in einem Kubernetes-Cluster. Slinky nutzt Slurm Bridge, um die Co-Location von Slurm- und Kubernetes-Workloads zu unterstützen und die Vorteile des Slurm-Schedulings und der Skalierung für beide zu nutzen.

Slinky herunterladen

Slinky ist vollständig Open-Source und hardwareagnostisch und bietet vollständige Transparenz und Flexibilität für das Ressourcenmanagement und die Job-Planung auf Kubernetes. Stellen Sie Slink bereit, tragen Sie zu seinem Wachstum bei und integrieren Sie es nahtlos in Ihren Infrastruktur-Stack.

Schauen Sie sich das Produkt auf GitHub an und treten Sie der Community bei!

Vorteile

Entdecken Sie die Vorteile von Slinky

Slinky ist ideal für Unternehmen, die KI-Training und umfangreiche GPU-Workloads, wissenschaftliche Simulationen oder datenintensive Aufgaben neben modernen, Cloud-nativen Anwendungen ausführen. Dadurch entfällt die Wartung separater Cluster, was das Workload-Management vereinfacht und die Effizienz steigert.

Einheitliches Ressourcenmanagement

Führen Sie Slurm- und Kubernetes-Workloads im selben Knotenpool aus, ohne die Infrastruktur zu duplizieren. Slinky macht es nicht mehr erforderlich, Cluster zwischen HPC- und Cloud-nativen Teams zu partitionieren, sodass beide auf gemeinsamer Hardware unter einer einzigen Scheduling-Ebene arbeiten können.

Topology-Aware GPU-Scheduling

Slinky nutzt das topologie-bewusste Scheduling von Slurm, um verteilte Workloads auf Knoten zu platzieren, die sich physisch am nächsten in der Netzwerkstruktur befinden. Dies minimiert den Kommunikations-Overhead für umfangreiche KI-Trainings- und HPC-Workloads, bei denen die Latenz zwischen den Knoten direkt die Leistung beeinflusst.

Kubernetes-Native Bereitstellung

Da Slinky Slurm innerhalb von Kubernetes ausführt, profitieren Cluster von Kubernetes-nativen Tools für Autoscaling, Beobachtbarkeit und Lebenszyklusmanagement. Teams können die erstklassigen Scheduling-Funktionen von Slurm nutzen und gleichzeitig weiterhin im Rahmen ihrer bestehenden Kubernetes-Toolings und -Workflows arbeiten.

Breite Hardware-Kompatibilität

Slinky wurde für die Ausführung auf fast jedem GPU-beschleunigten Cluster entwickelt – von lokalen Supercomputern bis hin zu großen Cloud-Anbietern. Dieser hardwareagnostische Ansatz bietet Unternehmen die Flexibilität, konsistente Planungsrichtlinien in heterogenen Rechenzentrumsumgebungen ohne Anbieter-Lock-in bereitzustellen.

Nächste Schritte

Sind Sie bereit für den Einstieg?

Laden Sie auf GitHub herunter und treten Sie der Community bei!

Slurm- und Slinky-Unterstützung

Bleiben Sie über neue Versionen auf dem Laufenden und erhalten Sie Direct-to-Engineering-Support.

Slinky-Dokumentation

Greifen Sie auf Versionshinweise und Kurzanleitungen für Slinky zu.