Administración de cargas de trabajo de Slurm para Kubernetes.
Descripción general
Slinky, un proyecto de código abierto desarrollado por SchedMD (ahora parte de NVIDIA), permite una interoperabilidad fluida entre Slurm y Kubernetes. Presenta herramientas que permiten a los usuarios ejecutar y administrar clústeres de Slurm dentro de entornos de Kubernetes basados en casi cualquier clúster acelerado por GPU, lo que proporciona una amplia compatibilidad con hardware diseñada para los data centers heterogéneos de la actualidad. Ya sea que esté administrando cargas de trabajo de computación de alto desempeño (HPC) u operando dentro de entornos nativos de la nube, Slinky ayuda a reunir lo mejor de ambos mundos para una administración y una programación de recursos eficientes.
Slinky es un kit de herramientas de código abierto para integrar Slurm con Kubernetes, lo que lo hace ideal para escenarios de computación híbridos y ofrece flexibilidad y facilidad de uso para los usuarios de HPC y de IA nativos de la nube.
Tecnología
Los principales componentes del Kit de Herramientas Slinky incluyen Slurm Operator y Slurm Bridge. Slurm Operator ejecuta clústeres de Slurm completos en la infraestructura de Kubernetes, lo que administra todo el ciclo de vida de los daemons de Slurm como pods. Slurm Bridge lleva la programación de Slurm a las cargas de trabajo nativas de Kubernetes, lo que permite a Slurm actuar como un programador de Kubernetes para pods.
Slurm Operator es central para la funcionalidad de Slinky. Administra con éxito el escalado de los nodos de Slurm dentro de Kubernetes. Slinky incorpora Slurm Operator para utilizar aspectos de Slurm, como su asignación de trabajos, la rendición y las dependencias, el reparto justo y la programación de prioridades.
Slurm Bridge lleva la programación rápida e inteligente de cargas de trabajo a todo un clúster de Kubernetes. Slinky usa Slurm Bridge para admitir la localización conjunta de las cargas de trabajo de Slurm y Kubernetes, lo que aporta las ventajas de la programación y la escalabilidad de Slurm a ambas.
Slinky es completamente de código abierto y compatible con cualquier hardware, lo que proporciona total transparencia y flexibilidad para la administración de recursos y la programación de trabajos en Kubernetes. Implemente Slinky, contribuya a su crecimiento e intégrelo a la perfección en su pila de infraestructura.
¡Descúbralo en GitHub y únase a la comunidad!
Beneficios
Slinky es ideal para organizaciones que ejecutan entrenamiento de IA y cargas de trabajo de GPU a gran escala, simulaciones científicas o tareas con uso intensivo de datos junto con aplicaciones modernas y nativas de la nube. Elimina la necesidad de mantener clústeres separados, lo que simplifica la administración de cargas de trabajo y aumenta la eficiencia.
Ejecute cargas de trabajo de Slurm y Kubernetes en el mismo agrupamiento de nodos sin duplicar infraestructura. Slinky elimina la necesidad de particionar clústeres entre equipos de HPC y nativos de la nube, lo que permite a ambos operar en hardware compartido bajo una sola capa de planificación.
Slinky usa la programación sensible a la topología de Slurm para colocar cargas de trabajo distribuidas en los nodos que están físicamente más cercanos en la estructura de la red. Esto minimiza la sobrecarga de comunicación para el entrenamiento de IA a gran escala y las cargas de trabajo de HPC en las que la latencia entre nodos afecta directamente el desempeño.
Debido a que Slinky ejecuta Slurm dentro de Kubernetes, los clústeres se benefician de las herramientas nativas de Kubernetes para el autoescalado, la observabilidad y la administración de ciclos de vida. Los equipos pueden adoptar las capacidades de planificación de clase mundial de Slurm, a la vez que continúan trabajando dentro de sus herramientas y workflows de Kubernetes existentes.
Slinky está diseñado para ejecutarse en casi cualquier clúster acelerado por GPU, desde las supercomputadoras en las instalaciones hasta los principales proveedores de nube. Este enfoque agnóstico de hardware brinda a las organizaciones la flexibilidad para implementar políticas de programación consistentes en entornos de data centers heterogéneos sin depender de un proveedor.
¡Descargue en GitHub y únase a la comunidad!
Manténgase al día con los nuevos lanzamientos y obtenga soporte directo para ingeniería.
Acceda a las notas de lanzamiento y las guías de inicio rápido para Slinky.