Slurm Der Standard für HPC- und KI-Orchestrierung

Slurm: Open-Source-HPC- und KI-Workload-Manager

Der Standard für HPC- und KI-Orchestrierung.

Überblick

Open-Source-Workload-Management

Slurm ist ein Open-Source-Workload-Manager, der für die effiziente Verwaltung nahezu jedes Workloads entwickelt wurde und einen bewährten Durchsatz in großem Maßstab bietet. Es nutzt eine hierarchische Struktur, die aus einem Controller, Knoten und Partitionen besteht, um Aufträge basierend auf Richtlinien und Ressourcen zuzuweisen. Dadurch wird die Workload-Verteilung optimiert, die Cluster-Auslastung maximiert und eine effiziente Job-Ausführung gewährleistet. Slurm wurde von Ingenieuren von SchedMD (jetzt Teil von NVIDIA) mit fundiertem Know-how in den Bereichen High-Performance-Computing (HPC) und KI entwickelt und gewartet. Slurm ist der Scheduler der Wahl für mehr als die Hälfte der Top-100-Systeme der TOP500.

Holen Sie sich Support für Slurm

Support-, Trainings- und Beratungsdienste für Slurm und Slinky sind jetzt von NVIDIA verfügbar. Von der Implementierung bis zur Anpassung erhalten Sie Direct-to-Engineering-Hilfe von Experten, um Slurm voll auszuschöpfen.

Slurm für Kubernetes

Slinky bietet eine Reihe leistungsstarker Tools, um die Funktionen von Slurm in Kubernetes zu integrieren. Es bietet Benutzern Flexibilität und Benutzerfreundlichkeit für die Verwaltung von HPC-, Cloud-nativen und KI-Trainings-Workloads.

Was ist Slurm?

Slurm ist der marktführende Open-Source-Workload-Manager für HPC und KI, dem viele der weltweit größten Supercomputing- und KI-Umgebungen vertrauen.

Slurm gewährt Benutzern für eine bestimmte Zeit exklusiven und/oder nicht-exklusiven Zugang zu Ressourcen (Rechenknoten), damit sie ihre Arbeit erledigen können. Es bietet dann ein Framework für das Starten, Ausführen und Überwachen von Arbeiten (normalerweise ein paralleler Job) auf der Menge der zugewiesenen Knoten. Schließlich entscheidet Slurm über konkurrierende Ressourcenanfragen, indem es eine Warteschlange mit ausstehenden Arbeiten verwaltet.

Merkmale

Ein genauerer Blick auf Slurm

Der Workload-Manager für die weltweit führenden Supercomputer.

Bewährte Skalierbarkeit und Durchsatz für HPC- und KI-Cluster

Verwalten Sie Millionen von Jobs effizient in den größten heterogenen CPU- und GPU-Clustern mit dem führenden Workload-Manager. Erzielen Sie eine hohe Auslastung und konsistente Leistung in verschiedenen Umgebungen – von kleinen Labors bis hin zu Exascale-Supercomputern der Spitzenklasse.

Optimierte Ressourcenzuweisung

Beschleunigen Sie die Job-Ausführung und steigern Sie die Produktivität mit ausgefeilten Planungs- und Priorisierungsfunktionen, einschließlich komplexer Richtlinienverwaltung, Service-Qualität und einer ausgewogenen Ressourcenzuweisung, die sich an den Service-Level-Vereinbarungen und Prioritäten von Unternehmen orientiert.

Fortschrittliches Topologie-Bewusstsein und Planung

Nutzen Sie das Verständnis von Slurm für komplexe Netzwerk- und Systemtopologien, um eine effiziente Workload-Platzierung in mehrstufigen Verbindungen zu ermöglichen. Minimieren Sie die Latenz, maximieren Sie die Bandbreite und verbessern Sie die End-to-End-Job-Leistung.

Breit zugänglich: On-Prem- und Cloud-Bereitstellungen

Bauen Sie im Laufe der Zeit mit einem Open-Source-Workload-Manager aus, der transparenten Code, aktive Entwicklung, effiziente Kosten, agile Innovationen und eine starke Benutzer-Community bietet. Unterstützt On-Prem-, Cloud- und hybride Bereitstellungen.

Slurm herunterladen

Slurm ist vollständig Open-Source- und hardwareagnostisch und bietet vollständige Transparenz und Flexibilität für das Ressourcenmanagement und die Job-Planung. Stellen Sie Slurm bereit, tragen Sie zu seinem Wachstum bei und integrieren Sie es nahtlos in Ihren Infrastruktur-Stack.

Schauen Sie sich das Produkt auf GitHub an und treten Sie der Community bei!

Technologie

Ressourcenmanagement und Job-Scheduling

Die Grundlage von Slurm ist die Zuweisung von Ressourcen, die Verwaltung ausstehender Arbeiten und die Ausführung von Jobs. Es sind jedoch die Details der Slurm-Architektur, die es zum führenden Managementsystem für HPC- und KI-Workloads machen.

GPU-Ressourcenmanagement

Mit seinem erstklassigen GPU-Ressourcenmanagement ermöglicht Slurm Benutzern das Anfordern von GPU- und CPU-Ressourcen und stellt so sicher, dass Jobs schnell und effizient mit maximaler Auslastung ausgeführt werden können.

Cloud-Integration

Slurm fährt automatisch Cloud-Instanzen basierend auf der Warteschlangentiefe und den Jobanforderungen durch Autoscaling und Hybrid-Cloud-Bursting hoch, was durch Representational State Transfer (REST)-APIs und die Integration mit führenden Cloud-Anbietern ermöglicht wird.

Hardwareagnostisch

Slurm kann auf nahezu jedem CPU- oder GPU-beschleunigten Cluster ausgeführt werden. Die breite Hardware-Unterstützung wurde für moderne, heterogene Rechenzentren entwickelt, in denen eine Vielzahl von Workloads ausgeführt wird.

Anwendungsbeispiele

Verwalten von Workloads mit Slurm

Erfahren Sie, wie Sie Rechenressourcen mit dem Open-Source-Workload-Manager verwalten können, dem Forschungslabore und führende KI-Unternehmen vertrauen.

Systeme in massivem Maßstab

Die gleichzeitige Verwaltung von Hunderttausenden von Kernen, Millionen von Jobs und vielfältiger Hardware erfordert mehr als die einfache Planung. Slurm bewältigt extreme Nebenläufigkeit mit hierarchischen Job-Warteschlangen, topologiebewusstem Routing und intelligentem Job-Packing, das den Durchsatz maximiert. Das integrierte Energiemanagement, die Richtlinien-Durchsetzung und die detaillierte Berichterstattung sorgen dafür, dass massive Bereitstellungen in jeder Größenordnung effizient und verantwortungsvoll ausgeführt werden.

HPC- und KI-Training

Beim Training großer KI-Modelle oder der Ausführung von Simulationen mit mehreren physikalischen Elementen ist das Job-Placement genauso wichtig wie die rohe Rechenleistung. Die topologie-fähige Scheduling-Lösung von Slurm plant Multi-Node-Workloads in mehrschichtigen Verbindungen, indem sie Jobs den Knoten zuweist, die in der Netzwerkstruktur physisch am nächsten liegen, und erhöht so die Leistung durch die Reduzierung des Kommunikations-Overheads. In Kombination mit der GPU-fähigen und richtlinienbasierten Ressourcenzuweisung können Teams verteilte Workloads vorhersehbar ausführen, ohne auf Aufträge mit geringerer Priorität oder schlecht platzierte Aufträge zu warten.

Kubernetes-Cluster

Slinky ist ein Toolkit von Komponenten, das den Slurm-Betrieb in Kubernetes-Umgebungen ermöglicht und die Lücke zwischen herkömmlichen HPC- und Cloud-nativen Umgebungen schließt. Teams können Slurm- und Kubernetes-Workloads in gemeinsamen Knoten-Pools ausführen und Kubernetes-Ressourcenanfragen in Slurm-Jobs umwandeln. Dies ermöglicht Forschern und Entwicklern vertraute Kubernetes-Workflows, während sie gleichzeitig von dem überragenden Batch-Scheduling und der Ressourcen-Governance von Slurm profitieren.

FAQs

FAQs über Slurm

Ein Open-Source-Workload-Manager ist Software, die die Planung, Ausführung und Überwachung von Rechenjobs in gemeinsam genutzten Infrastrukturen wie Clustern oder Cloud-Umgebungen automatisiert. Da es sich um Open-Source-Software handelt, können Unternehmen sie frei nutzen, anpassen und erweitern, um ihren Anforderungen an Leistung, Skalierbarkeit und Betrieb ohne Abonnements oder Unternehmenslizenzen gerecht zu werden.

Das TOP500 ist ein Ranking der weltweit leistungsstärksten nicht verteilten Computersysteme. Slurm ist der Scheduler der Wahl für mehr als die Hälfte der Top-100-Systeme auf der TOP500-Liste, was seine bewährte Skalierbarkeit und seinen Durchsatz in großem Maßstab unterstreicht.

Ja, Slurm bietet ein GPU-Ressourcenmanagement auf Spitzenniveau und ermöglicht es Benutzern, sowohl GPU- als auch CPU-Ressourcen anzufordern, um sicherzustellen, dass Jobs schnell und effizient ausgeführt werden und gleichzeitig die Auslastung maximiert wird.

Offizielle Kurzanleitungen für Benutzer und Administratoren, Versionshinweise und andere detaillierte Dokumentationen sind auf der SchedMD-Website (jetzt Teil von NVIDIA) verfügbar. NVIDIA bietet außerdem technische Blog-Posts und On-Demand-Videos im Zusammenhang mit der Slurm-Integration und -Funktionen.1

Support-Tickets können über das Support-Portal auf der SchedMD-Website (jetzt Teil von NVIDIA) eingereicht werden. Eine E-Mail-Adresse mit der Domain Ihres Unternehmens ist erforderlich, um Ihren Support-Anspruch zu validieren. Support-, Schulungs- und Beratungsdienste für Slurm und Slinky sind von NVIDIA verfügbar. Dies bietet Direct-to-Engineering-Hilfe von Experten für die Implementierung und Anpassung.2

Slurm nutzt sein Verständnis von komplexen Netzwerk- und Systemtopologien, um eine effiziente Workload-Platzierung in mehrstufigen Verbindungen zu ermöglichen. Dies minimiert die Latenz, maximiert die Bandbreite und verbessert die End-to-End-Job-Leistung, was besonders für HPC- und KI-Trainings-Workloads entscheidend ist.

SchedMD (jetzt Teil von NVIDIA) hat Slinky als Open-Source-Toolkit mit Komponenten entwickelt, die den Slurm-Betrieb in Kubernetes-Umgebungen ermöglichen und die Lücke zwischen herkömmlichen HPC- und Cloud-nativen Umgebungen schließen. So können Teams Slurm- und Kubernetes-Workloads in gemeinsamen Knoten-Pools ausführen und Kubernetes-Ressourcenanfragen in Slurm-Jobs umwandeln.3

Slurm ist für das warteschlangenbasierte Batch-Scheduling großer, paralleler Jobs optimiert, wobei Durchsatz und Hardwareeffizienz priorisiert werden. Kubernetes wurde für die deklarative, ereignisgesteuerte Orchestrierung von containerisierten Microservices entwickelt.4

Ressourcen

Das Neueste im Bereich Workload-Management

Orchestrieren Sie KI-Workloads der nächsten Generation mit Open-Source-Slurm

In dieser Session der GTC San Jose 2026 wurden die aktuelle Architektur, die jüngsten Verbesserungen und die laufende Community-gesteuerte Arbeit vorgestellt, die Slurm dabei helfen, mehr Effizienz, Portabilität und Interoperabilität für Supercomputing-Workloads zu erreichen.

Ausführung großer GPU-Workloads auf Kubernetes mit Slurm

Die meisten Unternehmen haben jahrelange Investitionen in Slurm-Job-Skripte durchgeführt und stehen beim Übergang zu Kubernetes vor Herausforderungen, ohne zwei separate Umgebungen aufrechtzuerhalten. Slinky, ein Open-Source-Projekt, bietet einen neuen Ansatz für die Verwaltung von Kubernetes-Umgebungen in großem Maßstab.

Von der Hardware bis zum topologiebewussten Scheduling

KI-Architekten und HPC-Betreiber stehen vor der Herausforderung, Rack-Hardware in sichere, leistungsstarke und leicht nutzbare Ressourcen für Endbenutzer zu verwandeln. Ein validierter Software-Stack, wie NVIDIA Mission Control™, bietet Tools für die Multi-Node-Planung und unterstützt sowohl Slurm als auch Kubernetes.

Nächste Schritte

Sind Sie bereit für den Einstieg?

Laden Sie auf GitHub herunter und treten Sie der Community bei!

Slurm-Unterstützung

Bleiben Sie über neue Versionen auf dem Laufenden und erhalten Sie direkten Support von den Slurm-Ingenieuren.

Slurm-Dokumentation

Greifen Sie auf Versionshinweise und Kurzanleitungen für Slurm zu.