El estándar para la orquestación de HPC e IA.
Slurm es un gestor de cargas de trabajo de código abierto que ha sido diseñado para gestionar de forma eficiente casi cualquier carga de trabajo y proporcionar un rendimiento probado a escala masiva. Utiliza una estructura jerárquica que consta de un controlador, nodos y particiones para asignar trabajos en función de políticas y recursos, optimizando la distribución de cargas de trabajo, maximizando la utilización de clústeres y garantizando una ejecución eficiente de los trabajos. Slurm, desarrollado y mantenido por ingenieros de SchedMD (que ahora forma parte de NVIDIA) con amplia experiencia en computación de alto rendimiento (HPC) e IA, es el planificador preferido para más de la mitad de los 100 principales sistemas del TOP500.
Slurm es el gestor de cargas de trabajo de código abierto líder del mercado para HPC e IA en el que confían muchos de los entornos de supercomputación e IA más grandes del mundo.
Slurm asigna acceso exclusivo o no exclusivo a recursos (nodos de computación) a los usuarios durante un cierto tiempo para que puedan realizar trabajos. A continuación, proporciona un marco para iniciar, ejecutar y supervisar el trabajo (normalmente una tarea paralela) en el conjunto de nodos asignados. Por último, Slurm arbitra las solicitudes de recursos en conflicto al gestionar una cola de trabajo pendiente.
El gestor de cargas de trabajo para los mejores superordenadores del mundo.
Slurm es totalmente de código abierto e independiente del hardware, lo que proporciona una transparencia y flexibilidad completas para la gestión de recursos y la planificación de trabajos. Implemente Slurm, contribuya a su crecimiento e intégrelo a la perfección en su pila de infraestructura.
¡Échele un vistazo en GitHub y únase a la comunidad!
Slurm se basa en asignar recursos, gestionar el trabajo pendiente y ejecutar trabajos, pero son los detalles de su arquitectura los que lo convierten en el sistema de gestión líder para cargas de trabajo de HPC e IA.
Descubra cómo puede gestionar recursos de computación utilizando el gestor de cargas de trabajo de código abierto en el que confían laboratorios de investigación y líderes de IA de vanguardia.
La gestión simultánea de cientos de miles de núcleos, millones de trabajos y hardware diverso requiere algo más que una programación básica. Slurm gestiona la concurrencia extrema con colas de trabajos jerárquicas, enrutamiento consciente de la topología y empaquetado de trabajos inteligente que maximiza el rendimiento. Sus funciones integradas, como gestión de la energía, aplicación de políticas y generación de informes detallados, permiten que las implementaciones masivas se ejecuten de forma eficiente y con control a cualquier escala.
Cuando se entrenan modelos de IA de gran tamaño o se ejecutan simulaciones de varias físicas, la asignación de trabajos es tan importante como la computación en bruto. El planificador con conocimiento de la tipología de Slurm planifica cargas de trabajo de varios nodos en interconexiones de varias capas al asignar trabajos a los nodos que están físicamente más cercanos en la red, aumentando el rendimiento al reducir la sobrecarga de comunicación. Todo esto combinado con una asignación de recursos consciente de la GPU y basada en políticas permite a los equipos ejecutar cargas de trabajo distribuidas de forma predecible sin esperar a trabajos de baja prioridad o mal asignados.
Slinky es un kit de herramientas de componentes que permite el funcionamiento de Slurm en entornos de Kubernetes, lo que cierra la brecha entre los entornos de HPC tradicionales y los nativos de la nube. Los equipos pueden ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, traduciendo las solicitudes de recursos de Kubernetes en trabajos de Slurm. Esto proporciona a investigadores y desarrolladores flujos de trabajo de Kubernetes familiares, al tiempo que se benefician de la superior programación por lotes y gestión de recursos de Slurm.
Preguntas frecuentes
Un gestor de cargas de trabajo de código abierto es un software que automatiza la programación, ejecución y supervisión de trabajos de computación en infraestructura compartida, como clústeres o entornos en la nube. Al ser de código abierto, las organizaciones pueden utilizarlo, personalizarlo y ampliarlo gratuitamente para adaptarlo a sus necesidades de rendimiento, escalabilidad y operativas sin necesidad de suscripciones ni licencias empresariales.
El TOP500 es una clasificación de los sistemas informáticos no distribuidos más potentes del mundo. Slurm es el planificador preferido para más de la mitad de los 100 principales sistemas de la lista TOP500, lo que destaca su escalabilidad y rendimiento probados a escala masiva.
Sí, Slurm ofrece una gestión de recursos de GPU de primera clase, lo que permite a los usuarios solicitar recursos de GPU y CPU para garantizar que los trabajos se ejecuten de forma rápida y eficiente, al tiempo que se maximiza la utilización.
Las guías oficiales de inicio rápido para usuarios y administradores, las notas de la versión y otra documentación detallada están disponibles en el sitio web de SchedMD (que ahora forma parte de NVIDIA). NVIDIA también proporciona publicaciones técnicas en el blog y vídeos bajo demanda relacionados con la integración y las funciones de Slurm.1
Los tickets de soporte se pueden enviar a través del portal de soporte en el sitio web de SchedMD (que ahora forma parte de NVIDIA). Para validar el derecho a soporte se requiere una dirección de correo electrónico con el dominio de la organización. Los servicios de soporte, entrenamiento y consultoría de Slurm y Slinky están disponibles en NVIDIA. Esto proporciona ayuda directa de expertos en ingeniería para la implementación y la personalización.2
Slurm aprovecha su comprensión de las complejas topologías de red y sistema para permitir una asignación eficiente de las cargas de trabajo en interconexiones multinivel. Esto minimiza la latencia, maximiza el ancho de banda y mejora el rendimiento de los trabajos de extremo a extremo, lo que es especialmente importante para las cargas de trabajo de HPC e IA.
SchedMD (que ahora forma parte de NVIDIA) desarrolló Slinky como un kit de herramientas de código abierto de componentes que permite el funcionamiento de Slurm en entornos de Kubernetes, lo que cierra la brecha entre los entornos de HPC tradicionales y los nativos de la nube. Esto permite a los equipos ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, traduciendo las solicitudes de recursos de Kubernetes en trabajos de Slurm.3
Slurm está optimizado para la programación por lotes basada en colas de trabajos paralelos de gran tamaño, priorizando el rendimiento y la eficiencia del hardware. Kubernetes está diseñado para la orquestación declarativa y basada en eventos de microservicios en contenedores.4