Gerenciamento de workload Slurm para Kubernetes.
Visão Geral
O Slinky, um projeto de código aberto desenvolvido pela SchedMD (agora parte da NVIDIA), permite a interoperabilidade perfeita entre o Slurm e o Kubernetes. Ele apresenta ferramentas que permitem que os usuários executem e gerenciem clusters Slurm em ambientes Kubernetes criados em quase qualquer cluster acelerado por GPU, fornecendo amplo suporte a hardware projetado para os data centers heterogêneos atuais. Seja gerenciando workloads de computação de alto desempenho (HPC) ou operando em ambientes nativos de nuvem, o Slinky ajuda a reunir o melhor dos dois mundos para gerenciamento e agendamento de recursos eficientes.
O Slinky é um kit de ferramentas de código aberto para integrar o Slurm com o Kubernetes, tornando-o ideal para cenários de computação híbrida e oferecendo flexibilidade e facilidade de uso para usuários de HPC e IA nativa de nuvem.
Tecnologia
Os principais componentes do Kit de Ferramentas Slinky incluem Slurm Operator e Slurm Bridge. O Slurm Operator executa clusters Slurm completos na infraestrutura do Kubernetes, gerenciando o ciclo de vida completo dos daemons Slurm como pods. O Slurm Bridge traz o agendamento de Slurm para workloads nativos do Kubernetes, permitindo que o Slurm atue como um agendador de Kubernetes para pods.
O Slurm Operator é o núcleo da funcionalidade do Slinky. Ele gerencia com sucesso a escalabilidade de nós Slurm no Kubernetes. O Slinky incorpora o Slurm Operator para utilizar aspectos do Slurm, como sua alocação de trabalhos, contabilidade e dependências, compartilhamento justo e agendamento de prioridades.
O Slurm Bridge traz o agendamento rápido e inteligente de workloads em um cluster de Kubernetes. A Slinky usa o Slurm Bridge para apoiar a co-localização de workloads Slurm e Kubernetes, trazendo as vantagens do agendamento e da escala do Slurm para ambos.
O Slinky é totalmente de código aberto e independente de hardware, fornecendo transparência e flexibilidade completas para gerenciamento de recursos e agendamento de trabalhos no Kubernetes. Implante o Slinky, contribua para seu crescimento e integre-o perfeitamente em seu stack de infraestrutura.
Confira no GitHub e junte-se à comunidade!
Benefícios
O Slinky é ideal para organizações que executam treinamento de IA e workloads de GPU em larga escala, simulações científicas ou tarefas intensivas em dados juntamente com aplicações modernas e nativas de nuvem. Ele remove a necessidade de manter clusters separados, simplificando o gerenciamento de workload e aumentando a eficiência.
Execute workloads Slurm e Kubernetes no mesmo pool de nós sem duplicar a infraestrutura. O Slinky elimina a necessidade de particionar clusters entre equipes de HPC e nativas de nuvem, permitindo que ambas operem em hardware compartilhado em uma única camada de agendamento.
O Slinky usa o agendamento com consciência de topologia do Slurm para colocar workloads distribuídos em nós fisicamente mais próximos na malha de rede. Isso minimiza a sobrecarga de comunicação para treinamento de IA em larga escala e workloads de HPC nos quais a latência entre nós impacta diretamente o desempenho.
Como o Slinky executa o Slurm dentro do Kubernetes, os clusters se beneficiam de ferramentas nativas do Kubernetes para escalabilidade automática, observabilidade e gerenciamento de ciclo de vida. As equipes podem adotar os recursos de agendamento de nível mundial do Slurm, ao mesmo tempo em que continuam trabalhando dentro de suas ferramentas e workflows de Kubernetes existentes.
O Slinky foi projetado para ser executado em quase qualquer cluster acelerado por GPU, desde supercomputadores locais até os principais provedores de Cloud. Essa abordagem independente de hardware oferece às organizações a flexibilidade para implantar políticas de agendamento consistentes em ambientes de Data Center heterogêneos, sem lock-in de fornecedores.
Faça o download no GitHub e junte-se à comunidade!
Fique por dentro dos novos lançamentos e obtenha suporte direto da engenharia.
Acesse as notas de lançamento e guias de início rápido para o Slinky.