Slurm La norme pour l'orchestration HPC et de l'IA

Slurm : gestionnaire de charge de travail HPC et d'IA open source

La norme pour l'orchestration HPC et de l'IA.

Aperçu

Gestion de la charge de travail open source

Slurm est un gestionnaire de charge de travail open source conçu pour gérer efficacement presque n'importe quelle charge de travail et fournir un débit éprouvé à grande échelle. Cette solution utilise une structure hiérarchique composée d'un contrôleur, de nœuds et de partitions pour attribuer les tâches en fonction des politiques et des ressources, ce qui permet d'optimiser la répartition de la charge de travail, de maximiser l'utilisation du cluster et de garantir une exécution efficace des tâches. Développé et maintenu par les ingénieurs de SchedMD (qui fait désormais partie de NVIDIA), qui possèdent une expertise approfondie en calcul haute performance (HPC) et en IA, Slurm est le planificateur privilégié par plus de la moitié des systèmes classés parmi les 100 premiers du classement TOP500.

Obtenir une assistance pour Slurm

Les services d'assistance, de formation et de consultation Slurm et Slinky sont désormais disponibles auprès de NVIDIA. De la mise en œuvre à la personnalisation, bénéficiez d'une assistance technique directe prodiguée par des experts pour exploiter pleinement le potentiel de Slurm.

Slurm pour Kubernetes

Slinky fournit un ensemble d'outils puissants qui permettent d'intégrer les capacités de Slurm à Kubernetes. Cette solution offre aux utilisateurs flexibilité et simplicité d'utilisation pour la gestion des charges de travail liées au calcul haute performance (HPC), aux applications natives du cloud et à l'entraînement des modèles d'IA.

Qu'est-ce que Slurm ?

Slurm est le gestionnaire de charge de travail open-source leader sur le marché pour les HPC et l'IA, utilisé par bon nombre des plus grands environnements de calcul intensif et d'IA au monde.

Slurm accorde aux utilisateurs un accès exclusif et/ou non-exclusif aux ressources (nœuds de calcul) pour une durée déterminée, afin qu'ils puissent accomplir leur travail. Il fournit ensuite un framework pour lancer, exécuter et surveiller le travail (généralement une tâche parallèle) sur l'ensemble des nœuds alloués. Enfin, Slurm gère les conflits entre les demandes de ressources en gérant la file d'attente des tâches.

Fonctionnalités

Découvrons Slurm sous toutes ses facettes

Le gestionnaire de charge de travail pour les meilleurs supercalculateurs au monde.

Évolutivité et débit éprouvés pour les clusters HPC et d'IA

Gérez efficacement des millions de tâches sur les plus grands clusters CPU et GPU hétérogènes avec le principal gestionnaire de charge de travail. Bénéficiez d'une utilisation élevée et de performances cohérentes dans tous les environnements, des petits laboratoires aux supercalculateurs exascale de pointe.

Allocation optimisée des ressources

Accélérez l'exécution des tâches et améliorez la productivité grâce à des capacités de planification et de hiérarchisation sophistiquées, notamment la gestion de politiques complexes, la qualité de service et une allocation équilibrée des ressources qui s'aligne sur les accords de niveau de service et les priorités de l'entreprise.

Prise en compte et planification topologiques avancées

Tirer parti de la capacité de Slurm à appréhender les topologies complexes des réseaux et des systèmes afin de permettre un placement efficace des charges de travail sur des interconnexions à plusieurs niveaux. Minimisez la latence, maximisez la bande passante et améliorez les performances des tâches de bout en bout.

Largement accessible : déploiements sur site et Cloud

Développez et faites évoluer votre infrastructure au fil du temps grâce à un gestionnaire de charges de travail open source qui offre un code transparent, un développement actif, des coûts optimisés, une innovation agile et une communauté d'utilisateurs solide. Prenez en charge les déploiements sur site, dans le Cloud et hybrides.

Télécharger Slurm

Entièrement open source et indépendant du matériel, Slurm offre une transparence et une flexibilité complètes pour la gestion des ressources et la planification des tâches. Déployez Slurm, contribuez à sa croissance et intégrez-le en toute simplicité à votre pile d'infrastructure.

Découvrez cette nouveauté sur GitHub et rejoignez la communauté !

Technologie

Gestion des ressources et planification des tâches

Slurm a pour vocation d'allouer des ressources, de gérer les tâches en attente et d'exécuter des travaux, mais ce sont les détails de son architecture qui en font le système de gestion de référence pour les charges de travail HPC et d'IA.

Gestion des ressources GPU

Grâce à une gestion des ressources GPU de pointe, Slurm permet aux utilisateurs de demander des ressources GPU et CPU, ce qui garantit une exécution rapide et efficace des tâches avec une utilisation maximale.

Intégration Cloud

Slurm lance automatiquement des instances Cloud en fonction de la longueur de la file d'attente et des exigences des tâches, grâce à la mise à l'échelle automatique et au cloud bursting hybride, rendus possibles par les API REST (Representational State Transfer) et l'intégration avec les principaux fournisseurs de services Cloud.

Indépendant du matériel

Slurm s'exécute sur presque tous les clusters accélérés par CPU ou GPU, avec une large prise en charge matérielle conçue pour les Data Centers modernes et hétérogènes exécutant une variété de charges de travail.

Cas d'utilisation

Gérer les charges de travail avec Slurm

Découvrez comment vous pouvez gérer vos ressources de calcul à l'aide du gestionnaire de charge de travail open source auquel font confiance les laboratoires de recherche et les leaders de l'IA de pointe.

Systèmes à grande échelle

La gestion simultanée de centaines de milliers de cœurs, de millions de tâches et de matériel diversifié nécessite bien plus qu'une planification de base. Slurm gère les situations de concurrence extrême grâce à des files d'attente hiérarchiques, un routage tenant compte de la topologie et un regroupement intelligent des tâches qui optimise le débit. Grâce à des fonctions intégrées de gestion de l'énergie, d'application de politiques et de rapports détaillés, les déploiements massifs fonctionnent de manière efficace et responsable, quelle que soit leur échelle.

Entraînement HPC et de l'IA

Lorsque vous entraînez de grands modèles d'IA ou exécutez des simulations multi-physiques, le placement des tâches est tout aussi important que le calcul brut. La planification axée sur la topologie de Slurm prévoit les charges de travail multi-nœuds sur des interconnexions multicouches en attribuant les tâches aux nœuds physiquement les plus proches dans la structure réseau, ce qui améliore les performances en réduisant les coûts liés à la communication. Grâce à une allocation des ressources adaptée aux capacités des GPU et guidée par des règles, les équipes peuvent exécuter des charges de travail distribuées de manière prévisible, sans avoir à dépendre de tâches de moindre priorité ou mal planifiées.

Clusters Kubernetes

Slinky est un kit d'outils permettant l'exécution de Slurm dans des environnements Kubernetes, ce qui permet de faire le lien entre les environnements HPC traditionnels et les environnements natifs du Cloud. Les équipes peuvent exécuter des charges de travail Slurm et Kubernetes sur des pools de nœuds partagés, ce qui permet de transformer les demandes de ressources Kubernetes en tâches Slurm. Cela permet aux chercheurs et aux développeurs de bénéficier des workflows Kubernetes auxquels ils sont habitués, tout en profitant des capacités supérieures de planification par lots et de gestion des ressources offertes par Slurm.

FAQ

FAQ sur Slurm

Un gestionnaire de charge de travail open source est un logiciel qui automatise la planification, l'exécution et la surveillance des tâches de calcul sur une infrastructure partagée telle que les clusters ou les environnements Cloud. Ce logiciel étant open source, les entreprises peuvent l'utiliser, le personnaliser et le faire évoluer librement pour l'adapter à leurs besoins en matière de performances, d'évolutivité et d'exploitation, sans avoir à souscrire d'abonnement ni à acquérir de licence d'entreprise.

Le classement TOP500 classe les systèmes informatiques non distribués les plus puissants au monde. Slurm est le planificateur privilégié par plus de la moitié des 100 meilleurs systèmes du classement TOP500, ce qui témoigne de son évolutivité et de son débit éprouvés à très grande échelle.

Oui, Slurm offre une gestion des ressources GPU de premier ordre, permettant aux utilisateurs de demander à la fois des ressources GPU et CPU afin de garantir une exécution rapide et efficace des tâches tout en optimisant leur utilisation.

Les guides de démarrage rapide officiels pour les utilisateurs et les administrateurs, les notes de publication et d'autres documents détaillés sont disponibles sur le site Web de SchedMD (qui fait désormais partie de NVIDIA). NVIDIA propose également des articles de blog techniques et des vidéos à la demande consacrés à l'intégration et aux fonctionnalités de Slurm.1

Les tickets d'assistance peuvent être soumis via le portail d'assistance sur le site Web SchedMD (désormais intégré à NVIDIA). Une adresse e-mail associée au domaine de votre entreprise est obligatoire pour valider votre droit à l'assistance. Les services d'assistance, de formation et de consultation Slurm et Slinky sont disponibles auprès de NVIDIA. Cela permet d'obtenir une assistance technique directe de la part d'experts pour la mise en œuvre et la personnalisation.2

Slurm s'appuie sur son expertise en matière de topologies complexes de réseaux et de systèmes pour optimiser la répartition des charges de travail sur des interconnexions à plusieurs niveaux. Cela permet de réduire la latence, d'optimiser la bande passante et d'améliorer les performances des tâches de bout en bout, ce qui est particulièrement crucial pour les charges de travail liées au HPC et à l'entraînement des modèles d'IA.

SchedMD (qui fait désormais partie de NVIDIA) a développé Slinky, un kit d'outils open source composé de composants permettant l'exécution de Slurm dans des environnements Kubernetes, comblant ainsi le fossé entre les environnements HPC traditionnels et les environnements natifs du Cloud. Les équipes peuvent exécuter des charges de travail Slurm et Kubernetes sur des pools de nœuds partagés, ce qui permet de transformer les demandes de ressources Kubernetes en tâches Slurm.3

Slurm est optimisé pour la planification par lots de grandes tâches parallèles basée sur les files d'attente, en priorisant le débit et l'efficacité matérielle. Kubernetes est conçu pour l'orchestration déclarative et basée sur les événements des microservices conteneurisés.4

Ressources

Les dernières nouveautés en matière de gestion de la charge de travail

Orchestrez les charges de travail d'IA de nouvelle génération avec Slurm open source

Cette session de la GTC San Jose 2026 a permis d'examiner l'architecture actuelle, les améliorations récentes et les travaux menés par la communauté qui aident Slurm à atteindre une efficacité, une portabilité et une interopérabilité accrues pour les charges de travail de calcul intensif.

Exécution de charges de travail GPU à grande échelle sur Kubernetes avec Slurm

La plupart des entreprises ont investi pendant des années dans des scripts de tâches Slurm et rencontrent des difficultés pour passer à Kubernetes sans devoir gérer deux environnements distincts. Slinky, un projet open source, propose une nouvelle approche pour la gestion des environnements Kubernetes à grande échelle.

Du matériel à la planification axée sur la topologie

Les architectes d'IA et les opérateurs HPC sont confrontés au défi consistant à transformer le matériel mis en rack en ressources sécurisées, performantes et facilement consommables pour les utilisateurs finaux. Une pile logicielle validée, telle que NVIDIA Mission Control™, propose des outils de planification multi-nœuds, prenant en charge à la fois Slurm et Kubernetes.

Étapes suivantes

Vous voulez vous lancer ?

Téléchargez sur GitHub et rejoignez la communauté !

Prise en charge de Slurm

Restez informés des nouvelles versions et bénéficiez d'une assistance directe des ingénieurs Slurm.

Documentation Slurm

Accédez aux notes de publication et aux guides de démarrage rapide pour Slurm.