La norme pour l'orchestration HPC et de l'IA.
Slurm est un gestionnaire de charge de travail open source conçu pour gérer efficacement presque n'importe quelle charge de travail et fournir un débit éprouvé à grande échelle. Cette solution utilise une structure hiérarchique composée d'un contrôleur, de nœuds et de partitions pour attribuer les tâches en fonction des politiques et des ressources, ce qui permet d'optimiser la répartition de la charge de travail, de maximiser l'utilisation du cluster et de garantir une exécution efficace des tâches. Développé et maintenu par les ingénieurs de SchedMD (qui fait désormais partie de NVIDIA), qui possèdent une expertise approfondie en calcul haute performance (HPC) et en IA, Slurm est le planificateur privilégié par plus de la moitié des systèmes classés parmi les 100 premiers du classement TOP500.
Slurm est le gestionnaire de charge de travail open-source leader sur le marché pour les HPC et l'IA, utilisé par bon nombre des plus grands environnements de calcul intensif et d'IA au monde.
Slurm accorde aux utilisateurs un accès exclusif et/ou non-exclusif aux ressources (nœuds de calcul) pour une durée déterminée, afin qu'ils puissent accomplir leur travail. Il fournit ensuite un framework pour lancer, exécuter et surveiller le travail (généralement une tâche parallèle) sur l'ensemble des nœuds alloués. Enfin, Slurm gère les conflits entre les demandes de ressources en gérant la file d'attente des tâches.
Le gestionnaire de charge de travail pour les meilleurs supercalculateurs au monde.
Entièrement open source et indépendant du matériel, Slurm offre une transparence et une flexibilité complètes pour la gestion des ressources et la planification des tâches. Déployez Slurm, contribuez à sa croissance et intégrez-le en toute simplicité à votre pile d'infrastructure.
Découvrez cette nouveauté sur GitHub et rejoignez la communauté !
Slurm a pour vocation d'allouer des ressources, de gérer les tâches en attente et d'exécuter des travaux, mais ce sont les détails de son architecture qui en font le système de gestion de référence pour les charges de travail HPC et d'IA.
Découvrez comment vous pouvez gérer vos ressources de calcul à l'aide du gestionnaire de charge de travail open source auquel font confiance les laboratoires de recherche et les leaders de l'IA de pointe.
La gestion simultanée de centaines de milliers de cœurs, de millions de tâches et de matériel diversifié nécessite bien plus qu'une planification de base. Slurm gère les situations de concurrence extrême grâce à des files d'attente hiérarchiques, un routage tenant compte de la topologie et un regroupement intelligent des tâches qui optimise le débit. Grâce à des fonctions intégrées de gestion de l'énergie, d'application de politiques et de rapports détaillés, les déploiements massifs fonctionnent de manière efficace et responsable, quelle que soit leur échelle.
Lorsque vous entraînez de grands modèles d'IA ou exécutez des simulations multi-physiques, le placement des tâches est tout aussi important que le calcul brut. La planification axée sur la topologie de Slurm prévoit les charges de travail multi-nœuds sur des interconnexions multicouches en attribuant les tâches aux nœuds physiquement les plus proches dans la structure réseau, ce qui améliore les performances en réduisant les coûts liés à la communication. Grâce à une allocation des ressources adaptée aux capacités des GPU et guidée par des règles, les équipes peuvent exécuter des charges de travail distribuées de manière prévisible, sans avoir à dépendre de tâches de moindre priorité ou mal planifiées.
Slinky est un kit d'outils permettant l'exécution de Slurm dans des environnements Kubernetes, ce qui permet de faire le lien entre les environnements HPC traditionnels et les environnements natifs du Cloud. Les équipes peuvent exécuter des charges de travail Slurm et Kubernetes sur des pools de nœuds partagés, ce qui permet de transformer les demandes de ressources Kubernetes en tâches Slurm. Cela permet aux chercheurs et aux développeurs de bénéficier des workflows Kubernetes auxquels ils sont habitués, tout en profitant des capacités supérieures de planification par lots et de gestion des ressources offertes par Slurm.
FAQ
Un gestionnaire de charge de travail open source est un logiciel qui automatise la planification, l'exécution et la surveillance des tâches de calcul sur une infrastructure partagée telle que les clusters ou les environnements Cloud. Ce logiciel étant open source, les entreprises peuvent l'utiliser, le personnaliser et le faire évoluer librement pour l'adapter à leurs besoins en matière de performances, d'évolutivité et d'exploitation, sans avoir à souscrire d'abonnement ni à acquérir de licence d'entreprise.
Le classement TOP500 classe les systèmes informatiques non distribués les plus puissants au monde. Slurm est le planificateur privilégié par plus de la moitié des 100 meilleurs systèmes du classement TOP500, ce qui témoigne de son évolutivité et de son débit éprouvés à très grande échelle.
Oui, Slurm offre une gestion des ressources GPU de premier ordre, permettant aux utilisateurs de demander à la fois des ressources GPU et CPU afin de garantir une exécution rapide et efficace des tâches tout en optimisant leur utilisation.
Les guides de démarrage rapide officiels pour les utilisateurs et les administrateurs, les notes de publication et d'autres documents détaillés sont disponibles sur le site Web de SchedMD (qui fait désormais partie de NVIDIA). NVIDIA propose également des articles de blog techniques et des vidéos à la demande consacrés à l'intégration et aux fonctionnalités de Slurm.1
Les tickets d'assistance peuvent être soumis via le portail d'assistance sur le site Web SchedMD (désormais intégré à NVIDIA). Une adresse e-mail associée au domaine de votre entreprise est obligatoire pour valider votre droit à l'assistance. Les services d'assistance, de formation et de consultation Slurm et Slinky sont disponibles auprès de NVIDIA. Cela permet d'obtenir une assistance technique directe de la part d'experts pour la mise en œuvre et la personnalisation.2
Slurm s'appuie sur son expertise en matière de topologies complexes de réseaux et de systèmes pour optimiser la répartition des charges de travail sur des interconnexions à plusieurs niveaux. Cela permet de réduire la latence, d'optimiser la bande passante et d'améliorer les performances des tâches de bout en bout, ce qui est particulièrement crucial pour les charges de travail liées au HPC et à l'entraînement des modèles d'IA.
SchedMD (qui fait désormais partie de NVIDIA) a développé Slinky, un kit d'outils open source composé de composants permettant l'exécution de Slurm dans des environnements Kubernetes, comblant ainsi le fossé entre les environnements HPC traditionnels et les environnements natifs du Cloud. Les équipes peuvent exécuter des charges de travail Slurm et Kubernetes sur des pools de nœuds partagés, ce qui permet de transformer les demandes de ressources Kubernetes en tâches Slurm.3
Slurm est optimisé pour la planification par lots de grandes tâches parallèles basée sur les files d'attente, en priorisant le débit et l'efficacité matérielle. Kubernetes est conçu pour l'orchestration déclarative et basée sur les événements des microservices conteneurisés.4