Slinky - Integração de GPU do Slurm e do Kubernetes

Slinky

Gerenciamento de workload Slurm para Kubernetes.

Visão Geral

Leve recursos de Slurm para o Kubernetes

O Slinky, um projeto de código aberto desenvolvido pela SchedMD (agora parte da NVIDIA), permite a interoperabilidade perfeita entre o Slurm e o Kubernetes. Ele apresenta ferramentas que permitem que os usuários executem e gerenciem clusters Slurm em ambientes Kubernetes criados em quase qualquer cluster acelerado por GPU, fornecendo amplo suporte a hardware projetado para os data centers heterogêneos atuais. Seja gerenciando workloads de computação de alto desempenho (HPC) ou operando em ambientes nativos de nuvem, o Slinky ajuda a reunir o melhor dos dois mundos para gerenciamento e agendamento de recursos eficientes.

Obtenha Suporte para o Slinky

Os serviços de suporte, treinamento e consulta de Slurm e Slinky agora estão disponíveis na NVIDIA. Desde a implementação até a personalização, obtenha ajuda direta da engenharia dos especialistas para utilizar o Slinky em sua capacidade total.

Execução de Workloads de GPU em Larga Escala

A maioria das organizações tem anos de investimento em scripts de trabalhos Slurm e enfrenta desafios de transição para o Kubernetes sem manter dois ambientes separados. Neste blog, veja como o Slinky gerencia ambientes Kubernetes em escala.

O que é o Slinky?

O Slinky é um kit de ferramentas de código aberto para integrar o Slurm com o Kubernetes, tornando-o ideal para cenários de computação híbrida e oferecendo flexibilidade e facilidade de uso para usuários de HPC e IA nativa de nuvem.

Tecnologia

Uma Olhada mais Atenta no Slinky

Os principais componentes do Kit de Ferramentas Slinky incluem Slurm Operator e Slurm Bridge. O Slurm Operator executa clusters Slurm completos na infraestrutura do Kubernetes, gerenciando o ciclo de vida completo dos daemons Slurm como pods. O Slurm Bridge traz o agendamento de Slurm para workloads nativos do Kubernetes, permitindo que o Slurm atue como um agendador de Kubernetes para pods.

Slurm Operator

O Slurm Operator é o núcleo da funcionalidade do Slinky. Ele gerencia com sucesso a escalabilidade de nós Slurm no Kubernetes. O Slinky incorpora o Slurm Operator para utilizar aspectos do Slurm, como sua alocação de trabalhos, contabilidade e dependências, compartilhamento justo e agendamento de prioridades.

Slurm Bridge

O Slurm Bridge traz o agendamento rápido e inteligente de workloads em um cluster de Kubernetes. A Slinky usa o Slurm Bridge para apoiar a co-localização de workloads Slurm e Kubernetes, trazendo as vantagens do agendamento e da escala do Slurm para ambos.

Faça o Download do Slinky

O Slinky é totalmente de código aberto e independente de hardware, fornecendo transparência e flexibilidade completas para gerenciamento de recursos e agendamento de trabalhos no Kubernetes. Implante o Slinky, contribua para seu crescimento e integre-o perfeitamente em seu stack de infraestrutura.

Confira no GitHub e junte-se à comunidade!

Benefícios

Explore os Benefícios do Slinky

O Slinky é ideal para organizações que executam treinamento de IA e workloads de GPU em larga escala, simulações científicas ou tarefas intensivas em dados juntamente com aplicações modernas e nativas de nuvem. Ele remove a necessidade de manter clusters separados, simplificando o gerenciamento de workload e aumentando a eficiência.

Gerenciamento de Recursos Unificado

Execute workloads Slurm e Kubernetes no mesmo pool de nós sem duplicar a infraestrutura. O Slinky elimina a necessidade de particionar clusters entre equipes de HPC e nativas de nuvem, permitindo que ambas operem em hardware compartilhado em uma única camada de agendamento.

Agendamento de GPU com Consciência de Topologia

O Slinky usa o agendamento com consciência de topologia do Slurm para colocar workloads distribuídos em nós fisicamente mais próximos na malha de rede. Isso minimiza a sobrecarga de comunicação para treinamento de IA em larga escala e workloads de HPC nos quais a latência entre nós impacta diretamente o desempenho.

Implantação nativa do Kubernetes

Como o Slinky executa o Slurm dentro do Kubernetes, os clusters se beneficiam de ferramentas nativas do Kubernetes para escalabilidade automática, observabilidade e gerenciamento de ciclo de vida. As equipes podem adotar os recursos de agendamento de nível mundial do Slurm, ao mesmo tempo em que continuam trabalhando dentro de suas ferramentas e workflows de Kubernetes existentes.

Ampla Compatibilidade de Hardware

O Slinky foi projetado para ser executado em quase qualquer cluster acelerado por GPU, desde supercomputadores locais até os principais provedores de Cloud. Essa abordagem independente de hardware oferece às organizações a flexibilidade para implantar políticas de agendamento consistentes em ambientes de Data Center heterogêneos, sem lock-in de fornecedores.

Próximos passos

Que tal começar agora?

Faça o download no GitHub e junte-se à comunidade!

Suporte para Slurm e Slinky

Fique por dentro dos novos lançamentos e obtenha suporte direto da engenharia.

Documentação do Slinky

Acesse as notas de lançamento e guias de início rápido para o Slinky.