Slinky - Integrazione delle GPU Slurm e Kubernetes

Slinky

Gestione del carico di lavoro Slurm per Kubernetes.

Panoramica

Porta le capacità di Slurm in Kubernetes

Slinky, un progetto open source sviluppato da SchedMD (ora parte di NVIDIA), consente un'interoperabilità fluida tra Slurm e Kubernetes. Introduce strumenti che consentono agli utenti di eseguire e gestire cluster Slurm all'interno di ambienti Kubernetes basati su quasi tutti i cluster accelerati da GPU, fornendo un ampio supporto hardware progettato per i data center eterogenei di oggi. Sia che tu gestisca carichi di lavoro di calcolo ad alte prestazioni (HPC) sia che tu operi all'interno di ambienti cloud-nativi, Slinky aiuta a riunire il meglio di entrambi i mondi per una gestione e una pianificazione efficienti delle risorse.

Ottieni supporto per Slinky

I servizi di supporto, formazione e consulenza Slurm e Slinky sono ora disponibili presso NVIDIA. Dall'implementazione alla personalizzazione, ottieni supporto tecnico diretto dagli esperti per utilizzare Slinky al massimo delle sue potenzialità.

Esecuzione di carichi di lavoro GPU su larga scala

La maggior parte delle organizzazioni ha investito per anni in job script Slurm e affronta sfide nella transizione a Kubernetes senza mantenere due ambienti separati. In questo blog, scopri in che modo Slinky gestisce gli ambienti Kubernetes su larga scala.

Cos'è Slinky?

Slinky è un toolkit open source per integrare Slurm con Kubernetes, rendendolo ideale per gli scenari di calcolo ibridi e offrendo flessibilità e facilità d'uso sia per gli utenti HPC che per gli utenti di IA nativa cloud.

Tecnologia

Uno sguardo più da vicino a Slinky

I componenti principali del toolkit Slinky includono Slurm Operator e Slurm Bridge. Slurm Operator esegue cluster Slurm completi sull'infrastruttura Kubernetes, gestendo il ciclo di vita completo dei daemon Slurm come pod. Slurm Bridge porta la pianificazione Slurm nei carichi di lavoro Kubernetes nativi, consentendo a Slurm di fungere da scheduler Kubernetes per i pod.

Slurm Operator

Slurm Operator è fondamentale per la funzionalità di Slinky. Gestisce con successo la scalabilità dei nodi Slurm all'interno di Kubernetes. Slinky incorpora Slurm Operator per utilizzare aspetti di Slurm, come l'allocazione dei lavori, la contabilità e le dipendenze, la condivisione equa e la pianificazione delle priorità.

Slurm Bridge

Slurm Bridge offre una pianificazione rapida e intelligente dei carichi di lavoro in un cluster Kubernetes. Slinky utilizza Slurm Bridge per supportare la co-localizzazione di carichi di lavoro Slurm e Kubernetes, portando i vantaggi della pianificazione e della scalabilità di Slurm per entrambi.

Scarica Slinky

Slinky è completamente open source e agnostico rispetto all'hardware, fornendo completa trasparenza e flessibilità per la gestione delle risorse e la pianificazione dei lavori su Kubernetes. Distribuisci Slinky, contribuisci alla sua crescita e integrala perfettamente nello stack dell'infrastruttura.

Scopri su GitHub e unisciti alla community!

Vantaggi

Scopri i vantaggi di Slinky

Slinky è ideale per le organizzazioni che eseguono addestramento IA e carichi di lavoro GPU su larga scala, simulazioni scientifiche o attività ad alta intensità di dati insieme ad applicazioni moderne e native cloud. Elimina la necessità di mantenere cluster separati, semplificando la gestione del carico di lavoro e aumentando l'efficienza.

Gestione unificata delle risorse

Esegui carichi di lavoro Slurm e Kubernetes sullo stesso pool di nodi senza duplicare l'infrastruttura. Slinky elimina la necessità di partizionare i cluster tra team HPC e nativi cloud, consentendo a entrambi di operare su hardware condiviso sotto un singolo livello di pianificazione.

Pianificazione delle GPU basata sulla topologia

Slinky utilizza la pianificazione basata sulla topologia di Slurm per posizionare i carichi di lavoro distribuiti sui nodi fisicamente più vicini nel fabric di rete. Ciò riduce al minimo i costi di comunicazione per l'addestramento IA su larga scala e i carichi di lavoro HPC in cui la latenza inter-nodo influisce direttamente sulle prestazioni.

Distribuzione Kubernetes-Native

Poiché Slinky esegue Slurm all'interno di Kubernetes, i cluster beneficiano degli strumenti nativi di Kubernetes per la scalabilità automatica, l'osservabilità e la gestione del ciclo di vita. I team possono adottare le capacità di pianificazione di livello mondiale di Slurm, continuando a lavorare all'interno dei propri strumenti e flussi di lavoro Kubernetes esistenti.

Ampia compatibilità hardware

Slinky è progettato per essere eseguito su quasi tutti i cluster accelerati da GPU, dai supercomputer on-premise ai principali fornitori di servizi cloud. Questo approccio indipendente dall'hardware offre alle organizzazioni la flessibilità necessaria per distribuire policy di pianificazione coerenti in ambienti di data center eterogenei senza il lock-in del fornitore.

Prossimi passi

È tutto pronto per iniziare?

Scarica su GitHub e unisciti alla community!

Supporto Slurm e Slinky

Rimani aggiornato sulle nuove versioni e ricevi supporto tecnico diretto.

Documentazione Slinky

Accedi alle note di rilascio e alle guide rapide per Slinky.