Slurm Workload Management pour Kubernetes.
Aperçu
Slinky, un projet open source développé par SchedMD (désormais intégré à NVIDIA), permet une interopérabilité fluide entre Slurm et Kubernetes. Il présente des outils qui permettent aux utilisateurs d'exécuter et de gérer des clusters Slurm au sein d'environnements Kubernetes basés sur presque n'importe quel cluster accéléré par GPU, offrant ainsi une large prise en charge matérielle conçue pour les Data Centers hétérogènes d'aujourd'hui. Que vous gériez des charges de travail de calcul haute performance (HPC) ou que vous opériez au sein d'environnements Cloud natifs, Slinky vous aide à réunir le meilleur des deux mondes pour une gestion et une planification efficaces des ressources.
Slinky est un kit d'outils open source permettant d'intégrer Slurm à Kubernetes, ce qui le rend idéal pour les scénarios de calcul hybrides et offre flexibilité et facilité d'utilisation aux utilisateurs HPC et d'IA natifs du Cloud.
Technologie
Les principaux composants du kit d'outils Slinky incluent Slurm Operator et Slurm Bridge. Slurm Operator exécute des clusters Slurm complets sur l'infrastructure Kubernetes, ce qui permet de gérer le cycle de vie complet des daemons Slurm sous forme de pods. Slurm Bridge intègre la planification Slurm aux charges de travail Kubernetes natives, ce qui permet à Slurm d'agir comme un planificateur Kubernetes pour les pods.
Slurm Operator est au cœur des fonctionnalités Slinky. Il gère avec succès la mise à l'échelle des nœuds Slurm au sein de Kubernetes. Slinky intègre Slurm Operator pour exploiter certaines caractéristiques de Slurm, telles que l'allocation des tâches, la comptabilité et les dépendances, le partage équitable et la planification des prioritaires.
Slurm Bridge permet une planification rapide et intelligente des charges de travail sur l'ensemble d'un cluster Kubernetes. Slinky utilise Slurm Bridge pour prendre en charge la co-localisation des charges de travail Slurm et Kubernetes, apportant les avantages de la planification et de l'échelle de Slurm aux deux.
Entièrement open source et indépendant du matériel, Slinky offre une transparence et une flexibilité complètes pour la gestion des ressources et la planification des tâches. Déployez Slinky, contribuez à sa croissance et intégrez-le en toute simplicité à votre pile d'infrastructure.
Découvrez cette nouveauté sur GitHub et rejoignez la communauté !
Avantages
Slinky est idéal pour les organisations qui exécutent des entraînements d’IA et des charges de travail GPU à grande échelle, des simulations scientifiques ou des tâches gourmandes en données, en parallèle d’applications modernes natives du cloud. Il élimine la nécessité de maintenir des clusters distincts, simplifiant la gestion des charges de travail et améliorant l'efficacité.
Exécutez des charges de travail Slurm et Kubernetes sur le même pool de nœuds sans dupliquer l’infrastructure. Slinky élimine le besoin de partitionner les clusters entre les équipes HPC et les équipes cloud-native, permettant aux deux d'opérer sur du matériel partagé sous une seule couche de planification.
Slinky utilise l’ordonnancement tenant compte de la topologie de Slurm pour placer les charges de travail distribuées sur les nœuds physiquement les plus proches au sein de l’infrastructure réseau. Cela minimise la surcharge de communication pour l'entraînement de l'IA à grande échelle et les charges de travail HPC où la latence inter-nœud a un impact direct sur les performances.
Étant donné que Slinky exécute Slurm au sein de Kubernetes, les clusters bénéficient d'outils natifs de Kubernetes pour la mise à l'échelle automatique, l'observabilité et la gestion du cycle de vie. Les équipes peuvent adopter les capacités de planification de pointe de Slurm tout en continuant à utiliser leurs outils et flux de travail Kubernetes existants.
Slinky est conçu pour s'exécuter sur presque n'importe quel cluster accéléré par GPU, des supercalculateurs sur site aux principaux fournisseurs de Cloud. Cette approche agnostique vis-à-vis du matériel offre aux entreprises la flexibilité nécessaire pour déployer des politiques de planification cohérentes dans des environnements de Data Centers hétérogènes, sans dépendance d'un fournisseur.
Téléchargez sur GitHub et rejoignez la communauté !
Suivez les dernières mises à jour et bénéficiez d'une assistance technique directe.
Accédez aux notes de publication et aux guides de démarrage rapide pour Slinky.