Slinky - Intégration GPU Slurm et Kubernetes

Slinky

Slurm Workload Management pour Kubernetes.

Aperçu

Intégrez les capacités Slurm à Kubernetes

Slinky, un projet open source développé par SchedMD (désormais intégré à NVIDIA), permet une interopérabilité fluide entre Slurm et Kubernetes. Il présente des outils qui permettent aux utilisateurs d'exécuter et de gérer des clusters Slurm au sein d'environnements Kubernetes basés sur presque n'importe quel cluster accéléré par GPU, offrant ainsi une large prise en charge matérielle conçue pour les Data Centers hétérogènes d'aujourd'hui. Que vous gériez des charges de travail de calcul haute performance (HPC) ou que vous opériez au sein d'environnements Cloud natifs, Slinky vous aide à réunir le meilleur des deux mondes pour une gestion et une planification efficaces des ressources.

Obtenir une assistance pour Slinky

Les services d'assistance, de formation et de consultation Slurm et Slinky sont désormais disponibles auprès de NVIDIA. De la mise en œuvre à la personnalisation, bénéficiez d'une assistance technique directe prodiguée par des experts pour exploiter pleinement le potentiel de Slinky.

Exécution de charges de travail GPU à grande échelle

La plupart des entreprises ont investi depuis plusieurs années dans les scripts de tâches Slurm et sont confrontées à des défis lors de la transition vers Kubernetes sans maintenir deux environnements distincts. Dans cet article, découvrez comment Slinky gère les environnements Kubernetes à grande échelle.

Qu'est-ce que Slinky ?

Slinky est un kit d'outils open source permettant d'intégrer Slurm à Kubernetes, ce qui le rend idéal pour les scénarios de calcul hybrides et offre flexibilité et facilité d'utilisation aux utilisateurs HPC et d'IA natifs du Cloud.

Technologie

Découvrez Slinky de plus près

Les principaux composants du kit d'outils Slinky incluent Slurm Operator et Slurm Bridge. Slurm Operator exécute des clusters Slurm complets sur l'infrastructure Kubernetes, ce qui permet de gérer le cycle de vie complet des daemons Slurm sous forme de pods. Slurm Bridge intègre la planification Slurm aux charges de travail Kubernetes natives, ce qui permet à Slurm d'agir comme un planificateur Kubernetes pour les pods.

Slurm Operator

Slurm Operator est au cœur des fonctionnalités Slinky. Il gère avec succès la mise à l'échelle des nœuds Slurm au sein de Kubernetes. Slinky intègre Slurm Operator pour exploiter certaines caractéristiques de Slurm, telles que l'allocation des tâches, la comptabilité et les dépendances, le partage équitable et la planification des prioritaires.

Slurm Bridge

Slurm Bridge permet une planification rapide et intelligente des charges de travail sur l'ensemble d'un cluster Kubernetes. Slinky utilise Slurm Bridge pour prendre en charge la co-localisation des charges de travail Slurm et Kubernetes, apportant les avantages de la planification et de l'échelle de Slurm aux deux.

Télécharger Slinky

Entièrement open source et indépendant du matériel, Slinky offre une transparence et une flexibilité complètes pour la gestion des ressources et la planification des tâches. Déployez Slinky, contribuez à sa croissance et intégrez-le en toute simplicité à votre pile d'infrastructure.

Découvrez cette nouveauté sur GitHub et rejoignez la communauté !

Avantages

Découvrez les avantages de Slinky

Slinky est idéal pour les organisations qui exécutent des entraînements d’IA et des charges de travail GPU à grande échelle, des simulations scientifiques ou des tâches gourmandes en données, en parallèle d’applications modernes natives du cloud. Il élimine la nécessité de maintenir des clusters distincts, simplifiant la gestion des charges de travail et améliorant l'efficacité.

Gestion unifiée des ressources

Exécutez des charges de travail Slurm et Kubernetes sur le même pool de nœuds sans dupliquer l’infrastructure. Slinky élimine le besoin de partitionner les clusters entre les équipes HPC et les équipes cloud-native, permettant aux deux d'opérer sur du matériel partagé sous une seule couche de planification.

Planification GPU basée sur la topologie

Slinky utilise l’ordonnancement tenant compte de la topologie de Slurm pour placer les charges de travail distribuées sur les nœuds physiquement les plus proches au sein de l’infrastructure réseau. Cela minimise la surcharge de communication pour l'entraînement de l'IA à grande échelle et les charges de travail HPC où la latence inter-nœud a un impact direct sur les performances.

Déploiement natif Kubernetes

Étant donné que Slinky exécute Slurm au sein de Kubernetes, les clusters bénéficient d'outils natifs de Kubernetes pour la mise à l'échelle automatique, l'observabilité et la gestion du cycle de vie. Les équipes peuvent adopter les capacités de planification de pointe de Slurm tout en continuant à utiliser leurs outils et flux de travail Kubernetes existants.

Large compatibilité matérielle

Slinky est conçu pour s'exécuter sur presque n'importe quel cluster accéléré par GPU, des supercalculateurs sur site aux principaux fournisseurs de Cloud. Cette approche agnostique vis-à-vis du matériel offre aux entreprises la flexibilité nécessaire pour déployer des politiques de planification cohérentes dans des environnements de Data Centers hétérogènes, sans dépendance d'un fournisseur.

Étapes suivantes

Vous voulez vous lancer ?

Téléchargez sur GitHub et rejoignez la communauté !

Prise en charge de Slurm et Slinky

Suivez les dernières mises à jour et bénéficiez d'une assistance technique directe.

Documentation Slinky

Accédez aux notes de publication et aux guides de démarrage rapide pour Slinky.