Der Standard für HPC- und KI-Orchestrierung.
Slurm ist ein Open-Source-Workload-Manager, der für die effiziente Verwaltung nahezu jedes Workloads entwickelt wurde und einen bewährten Durchsatz in großem Maßstab bietet. Es nutzt eine hierarchische Struktur, die aus einem Controller, Knoten und Partitionen besteht, um Aufträge basierend auf Richtlinien und Ressourcen zuzuweisen. Dadurch wird die Workload-Verteilung optimiert, die Cluster-Auslastung maximiert und eine effiziente Job-Ausführung gewährleistet. Slurm wurde von Ingenieuren von SchedMD (jetzt Teil von NVIDIA) mit fundiertem Know-how in den Bereichen High-Performance-Computing (HPC) und KI entwickelt und gewartet. Slurm ist der Scheduler der Wahl für mehr als die Hälfte der Top-100-Systeme der TOP500.
Slurm ist der marktführende Open-Source-Workload-Manager für HPC und KI, dem viele der weltweit größten Supercomputing- und KI-Umgebungen vertrauen.
Slurm gewährt Benutzern für eine bestimmte Zeit exklusiven und/oder nicht-exklusiven Zugang zu Ressourcen (Rechenknoten), damit sie ihre Arbeit erledigen können. Es bietet dann ein Framework für das Starten, Ausführen und Überwachen von Arbeiten (normalerweise ein paralleler Job) auf der Menge der zugewiesenen Knoten. Schließlich entscheidet Slurm über konkurrierende Ressourcenanfragen, indem es eine Warteschlange mit ausstehenden Arbeiten verwaltet.
Der Workload-Manager für die weltweit führenden Supercomputer.
Slurm ist vollständig Open-Source- und hardwareagnostisch und bietet vollständige Transparenz und Flexibilität für das Ressourcenmanagement und die Job-Planung. Stellen Sie Slurm bereit, tragen Sie zu seinem Wachstum bei und integrieren Sie es nahtlos in Ihren Infrastruktur-Stack.
Schauen Sie sich das Produkt auf GitHub an und treten Sie der Community bei!
Die Grundlage von Slurm ist die Zuweisung von Ressourcen, die Verwaltung ausstehender Arbeiten und die Ausführung von Jobs. Es sind jedoch die Details der Slurm-Architektur, die es zum führenden Managementsystem für HPC- und KI-Workloads machen.
Erfahren Sie, wie Sie Rechenressourcen mit dem Open-Source-Workload-Manager verwalten können, dem Forschungslabore und führende KI-Unternehmen vertrauen.
Die gleichzeitige Verwaltung von Hunderttausenden von Kernen, Millionen von Jobs und vielfältiger Hardware erfordert mehr als die einfache Planung. Slurm bewältigt extreme Nebenläufigkeit mit hierarchischen Job-Warteschlangen, topologiebewusstem Routing und intelligentem Job-Packing, das den Durchsatz maximiert. Das integrierte Energiemanagement, die Richtlinien-Durchsetzung und die detaillierte Berichterstattung sorgen dafür, dass massive Bereitstellungen in jeder Größenordnung effizient und verantwortungsvoll ausgeführt werden.
Beim Training großer KI-Modelle oder der Ausführung von Simulationen mit mehreren physikalischen Elementen ist das Job-Placement genauso wichtig wie die rohe Rechenleistung. Die topologie-fähige Scheduling-Lösung von Slurm plant Multi-Node-Workloads in mehrschichtigen Verbindungen, indem sie Jobs den Knoten zuweist, die in der Netzwerkstruktur physisch am nächsten liegen, und erhöht so die Leistung durch die Reduzierung des Kommunikations-Overheads. In Kombination mit der GPU-fähigen und richtlinienbasierten Ressourcenzuweisung können Teams verteilte Workloads vorhersehbar ausführen, ohne auf Aufträge mit geringerer Priorität oder schlecht platzierte Aufträge zu warten.
Slinky ist ein Toolkit von Komponenten, das den Slurm-Betrieb in Kubernetes-Umgebungen ermöglicht und die Lücke zwischen herkömmlichen HPC- und Cloud-nativen Umgebungen schließt. Teams können Slurm- und Kubernetes-Workloads in gemeinsamen Knoten-Pools ausführen und Kubernetes-Ressourcenanfragen in Slurm-Jobs umwandeln. Dies ermöglicht Forschern und Entwicklern vertraute Kubernetes-Workflows, während sie gleichzeitig von dem überragenden Batch-Scheduling und der Ressourcen-Governance von Slurm profitieren.
FAQs
Ein Open-Source-Workload-Manager ist Software, die die Planung, Ausführung und Überwachung von Rechenjobs in gemeinsam genutzten Infrastrukturen wie Clustern oder Cloud-Umgebungen automatisiert. Da es sich um Open-Source-Software handelt, können Unternehmen sie frei nutzen, anpassen und erweitern, um ihren Anforderungen an Leistung, Skalierbarkeit und Betrieb ohne Abonnements oder Unternehmenslizenzen gerecht zu werden.
Das TOP500 ist ein Ranking der weltweit leistungsstärksten nicht verteilten Computersysteme. Slurm ist der Scheduler der Wahl für mehr als die Hälfte der Top-100-Systeme auf der TOP500-Liste, was seine bewährte Skalierbarkeit und seinen Durchsatz in großem Maßstab unterstreicht.
Ja, Slurm bietet ein GPU-Ressourcenmanagement auf Spitzenniveau und ermöglicht es Benutzern, sowohl GPU- als auch CPU-Ressourcen anzufordern, um sicherzustellen, dass Jobs schnell und effizient ausgeführt werden und gleichzeitig die Auslastung maximiert wird.
Offizielle Kurzanleitungen für Benutzer und Administratoren, Versionshinweise und andere detaillierte Dokumentationen sind auf der SchedMD-Website (jetzt Teil von NVIDIA) verfügbar. NVIDIA bietet außerdem technische Blog-Posts und On-Demand-Videos im Zusammenhang mit der Slurm-Integration und -Funktionen.1
Support-Tickets können über das Support-Portal auf der SchedMD-Website (jetzt Teil von NVIDIA) eingereicht werden. Eine E-Mail-Adresse mit der Domain Ihres Unternehmens ist erforderlich, um Ihren Support-Anspruch zu validieren. Support-, Schulungs- und Beratungsdienste für Slurm und Slinky sind von NVIDIA verfügbar. Dies bietet Direct-to-Engineering-Hilfe von Experten für die Implementierung und Anpassung.2
Slurm nutzt sein Verständnis von komplexen Netzwerk- und Systemtopologien, um eine effiziente Workload-Platzierung in mehrstufigen Verbindungen zu ermöglichen. Dies minimiert die Latenz, maximiert die Bandbreite und verbessert die End-to-End-Job-Leistung, was besonders für HPC- und KI-Trainings-Workloads entscheidend ist.
SchedMD (jetzt Teil von NVIDIA) hat Slinky als Open-Source-Toolkit mit Komponenten entwickelt, die den Slurm-Betrieb in Kubernetes-Umgebungen ermöglichen und die Lücke zwischen herkömmlichen HPC- und Cloud-nativen Umgebungen schließen. So können Teams Slurm- und Kubernetes-Workloads in gemeinsamen Knoten-Pools ausführen und Kubernetes-Ressourcenanfragen in Slurm-Jobs umwandeln.3
Slurm ist für das warteschlangenbasierte Batch-Scheduling großer, paralleler Jobs optimiert, wobei Durchsatz und Hardwareeffizienz priorisiert werden. Kubernetes wurde für die deklarative, ereignisgesteuerte Orchestrierung von containerisierten Microservices entwickelt.4