Slinky is an open source toolkit developed by SchedMD (now part of NVIDIA) that integrates Slurm workload management with Kubernetes. It allows organizations to run and manage Slurm clusters inside Kubernetes environments on nearly any GPU-accelerated cluster, providing unified scheduling for HPC and cloud-native AI workloads.

What is Slurm Operator in Slinky?

Slurm Operator is a core Slinky component that runs full Slurm clusters on Kubernetes infrastructure. It manages the complete lifecycle of Slurm daemons as Kubernetes pods, including job allocation, accounting, dependencies, fair-share scheduling, and priority scheduling.

What is Slurm Bridge in Slinky?

Slurm Bridge is a Slinky component that brings Slurm scheduling to native Kubernetes workloads. It allows Slurm to act as a Kubernetes scheduler for pods, supporting the co-location of Slurm and Kubernetes workloads on shared infrastructure.

Is Slinky open source?

Yes. Slinky is fully open source and hardware agnostic. The project is available on GitHub at https://github.com/SlinkyProject. Users can deploy Slinky, contribute to its development, and integrate it freely into their infrastructure.

What hardware does Slinky support?

Slinky is designed to run on nearly any GPU-accelerated cluster, including on-premises supercomputers and major cloud providers such as AWS, GCP, and Azure. Its hardware-agnostic architecture allows consistent scheduling policies across heterogeneous data center environments.

What support is available for Slinky?

NVIDIA offers Slurm and Slinky support, training, and consultation services. Organizations can get direct-to-engineering help from NVIDIA experts for implementation and customization. More information is available at https://www.nvidia.com/en-us/software/slurm/slinky/support.

Slinky

Name: Slinky
Author: SchedMD (part of NVIDIA)

Slurm-Workload-Management für Kubernetes.

Herunterladen

Pressemitteilung lesen | NVIDIA Developers

Überblick
Technologie
Herunterladen
Vorteile
Nächste Schritte

Überblick
Technologie
Herunterladen
Vorteile
Nächste Schritte

Überblick

Slurm-Funktionen in Kubernetes bringen

Slinky, ein Open-Source-Projekt, das von SchedMD (jetzt Teil von NVIDIA) entwickelt wurde, ermöglicht die nahtlose Interoperabilität zwischen Slurm und Kubernetes. Es werden Tools vorgestellt, mit denen Benutzer Slurm-Cluster in Kubernetes-Umgebungen ausführen und verwalten können, die auf nahezu jedem GPU-beschleunigten Cluster basieren. Dies bietet breite Hardwareunterstützung, die für die heterogenen Rechenzentren von heute entwickelt wurde. Ganz gleich, ob Sie High-Performance-Computing-Workloads (HPC) verwalten oder in Cloud-nativen Umgebungen arbeiten: Slinky hilft Ihnen, das Beste aus beiden Welten für eine effiziente Ressourcenverwaltung und -planung zu kombinieren.

Support für Slinky erhalten

Support-, Trainings- und Beratungsdienste für Slurm und Slinky sind jetzt von NVIDIA verfügbar. Von der Implementierung bis zur Anpassung erhalten Sie Direct-to-Engineering-Hilfe von Experten, um Slinky voll auszuschöpfen.

Mehr erfahren

Ausführung großer GPU-Workloads

Die meisten Unternehmen haben jahrelang in Slurm-Job-Skripte investiert und stehen beim Übergang zu Kubernetes vor Herausforderungen, ohne zwei separate Umgebungen aufrechtzuerhalten. In diesem Blog erfahren Sie, wie Slinky Kubernetes-Umgebungen in großem Maßstab verwaltet.

Den Blog lesen

Was ist Slinky?

Slinky ist ein Open-Source-Toolkit für die Integration von Slurm in Kubernetes, wodurch es ideal für hybride Rechenszenarien ist und sowohl HPC- als auch Cloud-nativen KI-Benutzern Flexibilität und Benutzerfreundlichkeit bietet.

Technologie

Ein genauerer Blick auf Slinky

Zu den Hauptkomponenten des Slinky-Toolkits gehören Slurm Operator und Slurm Bridge. Slurm Operator führt vollständige Slurm-Cluster auf einer Kubernetes-Infrastruktur aus und verwaltet den vollständigen Lebenszyklus von Slurm-Daemons als Pods. Slurm Bridge bringt Slurm-Scheduling in native Kubernetes-Workloads und ermöglicht es Slurm, als Kubernetes-Scheduler für Pods zu fungieren.

Slurm Operator

Slurm Operator ist der Kern der Slinky-Funktionalität. Es verwaltet erfolgreich die Skalierung von Slurm-Knoten innerhalb von Kubernetes. Slinky integriert Slurm Operator, um Aspekte von Slurm zu nutzen, wie z. B. die Job-Zuweisung, die Buchhaltung und Abhängigkeiten, Fair-Share und die Prioritätsplanung.

Slurm Bridge

Slurm Bridge ermöglicht die schnelle, intelligente Planung von Workloads in einem Kubernetes-Cluster. Slinky nutzt Slurm Bridge, um die Co-Location von Slurm- und Kubernetes-Workloads zu unterstützen und die Vorteile des Slurm-Schedulings und der Skalierung für beide zu nutzen.

Slinky herunterladen

Slinky ist vollständig Open-Source und hardwareagnostisch und bietet vollständige Transparenz und Flexibilität für das Ressourcenmanagement und die Job-Planung auf Kubernetes. Stellen Sie Slink bereit, tragen Sie zu seinem Wachstum bei und integrieren Sie es nahtlos in Ihren Infrastruktur-Stack.

Schauen Sie sich das Produkt auf GitHub an und treten Sie der Community bei!

Vorteile

Entdecken Sie die Vorteile von Slinky

Slinky ist ideal für Unternehmen, die KI-Training und umfangreiche GPU-Workloads, wissenschaftliche Simulationen oder datenintensive Aufgaben neben modernen, Cloud-nativen Anwendungen ausführen. Dadurch entfällt die Wartung separater Cluster, was das Workload-Management vereinfacht und die Effizienz steigert.

Einheitliches Ressourcenmanagement

Führen Sie Slurm- und Kubernetes-Workloads im selben Knotenpool aus, ohne die Infrastruktur zu duplizieren. Slinky macht es nicht mehr erforderlich, Cluster zwischen HPC- und Cloud-nativen Teams zu partitionieren, sodass beide auf gemeinsamer Hardware unter einer einzigen Scheduling-Ebene arbeiten können.

Topology-Aware GPU-Scheduling

Slinky nutzt das topologie-bewusste Scheduling von Slurm, um verteilte Workloads auf Knoten zu platzieren, die sich physisch am nächsten in der Netzwerkstruktur befinden. Dies minimiert den Kommunikations-Overhead für umfangreiche KI-Trainings- und HPC-Workloads, bei denen die Latenz zwischen den Knoten direkt die Leistung beeinflusst.

Kubernetes-Native Bereitstellung

Da Slinky Slurm innerhalb von Kubernetes ausführt, profitieren Cluster von Kubernetes-nativen Tools für Autoscaling, Beobachtbarkeit und Lebenszyklusmanagement. Teams können die erstklassigen Scheduling-Funktionen von Slurm nutzen und gleichzeitig weiterhin im Rahmen ihrer bestehenden Kubernetes-Toolings und -Workflows arbeiten.

Breite Hardware-Kompatibilität

Slinky wurde für die Ausführung auf fast jedem GPU-beschleunigten Cluster entwickelt – von lokalen Supercomputern bis hin zu großen Cloud-Anbietern. Dieser hardwareagnostische Ansatz bietet Unternehmen die Flexibilität, konsistente Planungsrichtlinien in heterogenen Rechenzentrumsumgebungen ohne Anbieter-Lock-in bereitzustellen.

Nächste Schritte

Sind Sie bereit für den Einstieg?

Laden Sie auf GitHub herunter und treten Sie der Community bei!

Erste Schritte

Slurm- und Slinky-Unterstützung

Bleiben Sie über neue Versionen auf dem Laufenden und erhalten Sie Direct-to-Engineering-Support.

Mehr erfahren

Slinky-Dokumentation

Greifen Sie auf Versionshinweise und Kurzanleitungen für Slinky zu.

Mehr erfahren