El estándar para la orquestación de HPC e IA.
Slurm es un administrador de cargas de trabajo de código abierto diseñado para administrar de manera eficiente casi cualquier carga de trabajo y ofrecer un rendimiento comprobado a escala masiva. Usa una estructura jerárquica que consiste en un controlador, nodos y particiones para asignar trabajos en función de las políticas y los recursos, lo que optimiza la distribución de las cargas de trabajo, maximiza la utilización de clústeres y garantiza una ejecución eficiente de trabajos. Slurm, desarrollado y mantenido por ingenieros de SchedMD (ahora parte de NVIDIA) con profunda experiencia en computación de alto desempeño (HPC) e IA, es el programador preferido para más de la mitad de los 100 sistemas principales en TOP500.
Slurm es el administrador de cargas de trabajo de código abierto líder en el mercado para HPC e IA, en el que confían muchos de los entornos de supercomputación e IA más grandes del mundo.
Slurm asigna acceso exclusivo o no exclusivo a los recursos (nodos de computación) a los usuarios durante un cierto tiempo para que puedan realizar el trabajo. Luego, proporciona un framework para iniciar, ejecutar y monitorear el trabajo (normalmente un trabajo paralelo) en el conjunto de nodos asignados. Finalmente, Slurm arbitra las solicitudes conflictivas de recursos mediante la administración de una cola de trabajo pendiente.
El administrador de cargas de trabajo para las mejores supercomputadoras del mundo.
Slurm es completamente de código abierto y compatible con cualquier hardware, lo que proporciona total transparencia y flexibilidad para la administración de recursos y la programación de trabajos. Implemente Slurm, contribuya a su crecimiento e intégrelo a la perfección en su pila de infraestructura.
¡Descúbralo en GitHub y únase a la comunidad!
La base de Slurm es asignar recursos, administrar el trabajo pendiente y ejecutar trabajos, pero son los detalles de la arquitectura de Slurm los que lo convierten en el sistema de administración líder para las cargas de trabajo de HPC e IA.
Descubra cómo puede administrar recursos de computación mediante el administrador de cargas de trabajo de código abierto en el que confían los laboratorios de investigación y los líderes de IA de vanguardia.
La administración de cientos de miles de núcleos, millones de trabajos y hardware diverso simultáneamente requiere más que la programación básica. Slurm maneja la concurrencia extrema con colas de trabajos jerárquicas, el enrutamiento sensible a la topología y el empaquetado de trabajos inteligente que maximiza el rendimiento. La administración de energía integrada, la aplicación de políticas y los informes detallados mantienen las implementaciones masivas funcionando de manera eficiente y responsable a cualquier escala.
Al entrenar grandes modelos de IA o ejecutar simulaciones de múltiples físicas, la colocación de trabajos es tan importante como la computación en bruto. La programación sensible a la topología de Slurm planifica las cargas de trabajo de múltiples nodos en interconexiones de múltiples capas mediante la asignación de trabajos a los nodos que están físicamente más cercanos en la estructura de la red, lo que aumenta el desempeño al reducir la sobrecarga de comunicación. En combinación con la asignación de recursos sensible a la GPU e impulsada por políticas, los equipos pueden ejecutar cargas de trabajo distribuidas de manera predecible sin esperar trabajos de menor prioridad o mal colocados.
Slinky es un kit de herramientas de componentes que permite la operación de Slurm en entornos de Kubernetes, lo que cierra la brecha entre la HPC tradicional y los entornos nativos de la nube. Los equipos pueden ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, lo que traduce las solicitudes de recursos de Kubernetes en trabajos de Slurm. Esto brinda a los investigadores y desarrolladores workflows familiares de Kubernetes, a la vez que se benefician de la programación por lotes y la gobernanza de recursos superiores de Slurm.
Preguntas frecuentes
Un administrador de cargas de trabajo de código abierto es un software que automatiza la programación, la ejecución y el monitoreo de los trabajos de computación en toda la infraestructura compartida, como los clústeres o los entornos de nube. Debido a que es de código abierto, las organizaciones pueden usarlo, personalizarlo y extenderlo libremente para satisfacer sus necesidades operativas, de escalabilidad y de desempeño, sin suscripciones ni licencias empresariales.
TOP500 es una clasificación de los sistemas de computación no distribuidos más potentes del mundo. Slurm es el programador elegido para más de la mitad de los 100 sistemas principales de la lista TOP500, lo que destaca su escalabilidad y su rendimiento comprobados a escala masiva.
Sí, Slurm ofrece una administración de recursos de GPU líder en su clase, lo que permite a los usuarios solicitar recursos de GPU y CPU para garantizar que los trabajos se ejecuten de forma rápida y eficiente, a la vez que se maximiza la utilización.
Las guías oficiales de inicio rápido para usuarios y administradores, las notas de lanzamiento y otra documentación detallada están disponibles en el sitio web de SchedMD (ahora parte de NVIDIA). NVIDIA también proporciona publicaciones en el blog técnico y videos a demanda relacionados con la integración y las funciones de Slurm.1
Se pueden enviar tickets de asistencia a través del portal de asistencia en el sitio web de SchedMD (ahora parte de NVIDIA). Se requiere una dirección de correo electrónico con el dominio de su organización para validar su derecho a la asistencia. Los servicios de asistencia, capacitación y consulta de Slurm y Slinky están disponibles en NVIDIA. Esto proporciona ayuda directa de expertos en ingeniería para la implementación y la personalización.2
Slurm aprovecha su comprensión de las complejas topologías de redes y sistemas para posibilitar una colocación eficiente de cargas de trabajo en interconexiones de múltiples niveles. Esto minimiza la latencia, maximiza el ancho de banda y mejora el desempeño del trabajo integral, que es especialmente crítico para las cargas de trabajo de entrenamiento de HPC e IA.
SchedMD (ahora parte de NVIDIA) desarrolló Slinky como un kit de herramientas de código abierto de componentes que permite la operación de Slurm en entornos Kubernetes, lo que cierra la brecha entre la HPC tradicional y los entornos nativos de la nube. Permite que los equipos ejecuten cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, lo que traduce las solicitudes de recursos de Kubernetes en trabajos de Slurm.3
Slurm está optimizado para la programación de lotes basada en colas de grandes trabajos paralelos, priorizando el rendimiento y la eficiencia de hardware. Kubernetes está diseñado para la orquestación declarativa y basada en eventos de microservicios en contenedores.4