Slurm: el estándar para la orquestación de HPC e IA

Slurm: gestor de cargas de trabajo de HPC e IA de código abierto

El estándar para la orquestación de HPC e IA.

Descripción

Gestión de cargas de trabajo de código abierto

Slurm es un gestor de cargas de trabajo de código abierto que ha sido diseñado para gestionar de forma eficiente casi cualquier carga de trabajo y proporcionar un rendimiento probado a escala masiva. Utiliza una estructura jerárquica que consta de un controlador, nodos y particiones para asignar trabajos en función de políticas y recursos, optimizando la distribución de cargas de trabajo, maximizando la utilización de clústeres y garantizando una ejecución eficiente de los trabajos. Slurm, desarrollado y mantenido por ingenieros de SchedMD (que ahora forma parte de NVIDIA) con amplia experiencia en computación de alto rendimiento (HPC) e IA, es el planificador preferido para más de la mitad de los 100 principales sistemas del TOP500.

Obtener soporte para Slurm

Los servicios de soporte, entrenamiento y consultoría de Slurm y Slinky ya están disponibles en NVIDIA. Desde la implementación hasta la personalización, obtenga ayuda directa de los expertos en ingeniería para aprovechar todo el potencial de Slurm.

Slurm para Kubernetes

Slinky proporciona un potente conjunto de herramientas para llevar las capacidades de Slurm a Kubernetes. Ofrece a los usuarios flexibilidad y facilidad de uso para gestionar cargas de trabajo de HPC, nativas de la nube y de entrenamiento de IA.

¿Qué es Slurm?

Slurm es el gestor de cargas de trabajo de código abierto líder del mercado para HPC e IA en el que confían muchos de los entornos de supercomputación e IA más grandes del mundo.

Slurm asigna acceso exclusivo o no exclusivo a recursos (nodos de computación) a los usuarios durante un cierto tiempo para que puedan realizar trabajos. A continuación, proporciona un marco para iniciar, ejecutar y supervisar el trabajo (normalmente una tarea paralela) en el conjunto de nodos asignados. Por último, Slurm arbitra las solicitudes de recursos en conflicto al gestionar una cola de trabajo pendiente.

Características

Una mirada más cercana a Slurm

El gestor de cargas de trabajo para los mejores superordenadores del mundo.

Escalabilidad y rendimiento probados para clústeres de HPC e IA

Gestione de manera eficiente millones de trabajos en los mayores clústeres heterogéneos de CPU y GPU con el gestor de cargas de trabajo líder. Logre una alta utilización y un rendimiento uniforme en todos los entornos, desde pequeños laboratorios hasta superordenadores de exaescala de nivel de liderazgo.

Asignación de recursos optimizada

Acelere la ejecución de trabajos y mejore la productividad con capacidades sofisticadas de programación y priorización, que incluyen la gestión de políticas complejas, la calidad de servicio y la asignación equilibrada de recursos conforme a los acuerdos de nivel de servicio y las prioridades de la organización.

Conocimiento y planificación avanzadas de la topología

Aproveche la comprensión de Slurm de las complejas topologías de red y sistema para permitir una asignación eficiente de las cargas de trabajo en interconexiones multinivel. Minimice la latencia, maximice el ancho de banda y mejore el rendimiento de los trabajos de extremo a extremo.

Ampliamente accesible: en implementaciones en las instalaciones y en la nube

Cree y amplíe con el tiempo con un gestor de cargas de trabajo de código abierto que proporciona código transparente, desarrollo activo, costes eficientes, innovación ágil y una sólida comunidad de usuarios. Admite implementaciones en las instalaciones, en la nube e híbridas.

Descargar Slurm

Slurm es totalmente de código abierto e independiente del hardware, lo que proporciona una transparencia y flexibilidad completas para la gestión de recursos y la planificación de trabajos. Implemente Slurm, contribuya a su crecimiento e intégrelo a la perfección en su pila de infraestructura.

¡Échele un vistazo en GitHub y únase a la comunidad!

Tecnología

Gestión de recursos y programación de trabajos

Slurm se basa en asignar recursos, gestionar el trabajo pendiente y ejecutar trabajos, pero son los detalles de su arquitectura los que lo convierten en el sistema de gestión líder para cargas de trabajo de HPC e IA.

Gestión de recursos de GPU

Con una gestión de recursos de GPU de primera clase, Slurm permite a los usuarios solicitar recursos de GPU y CPU, lo que garantiza que los trabajos se ejecuten de forma rápida y eficiente con la máxima utilización.

Integración en la nube

Slurm crea automáticamente instancias en la nube en función de la profundidad de la cola y los requisitos de trabajo utilizando el autoescalado y la ráfaga en la nube híbrida, lo que es posible gracias a las API de transferencia de estado representacional (REST) y la integración con los principales proveedores de la nube.

Independiente del hardware

Slurm se ejecuta en casi cualquier clúster acelerado por CPU o GPU, con una amplia compatibilidad con hardware diseñada para centros de datos modernos y heterogéneos que ejecutan una variedad de cargas de trabajo.

Casos de uso

Gestión de cargas de trabajo con Slurm

Descubra cómo puede gestionar recursos de computación utilizando el gestor de cargas de trabajo de código abierto en el que confían laboratorios de investigación y líderes de IA de vanguardia.

Sistemas a escala masiva

La gestión simultánea de cientos de miles de núcleos, millones de trabajos y hardware diverso requiere algo más que una programación básica. Slurm gestiona la concurrencia extrema con colas de trabajos jerárquicas, enrutamiento consciente de la topología y empaquetado de trabajos inteligente que maximiza el rendimiento. Sus funciones integradas, como gestión de la energía, aplicación de políticas y generación de informes detallados, permiten que las implementaciones masivas se ejecuten de forma eficiente y con control a cualquier escala.

Entrenamiento de IA y HPC

Cuando se entrenan modelos de IA de gran tamaño o se ejecutan simulaciones de varias físicas, la asignación de trabajos es tan importante como la computación en bruto. El planificador con conocimiento de la tipología de Slurm planifica cargas de trabajo de varios nodos en interconexiones de varias capas al asignar trabajos a los nodos que están físicamente más cercanos en la red, aumentando el rendimiento al reducir la sobrecarga de comunicación. Todo esto combinado con una asignación de recursos consciente de la GPU y basada en políticas permite a los equipos ejecutar cargas de trabajo distribuidas de forma predecible sin esperar a trabajos de baja prioridad o mal asignados.

Clústeres de Kubernetes

Slinky es un kit de herramientas de componentes que permite el funcionamiento de Slurm en entornos de Kubernetes, lo que cierra la brecha entre los entornos de HPC tradicionales y los nativos de la nube. Los equipos pueden ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, traduciendo las solicitudes de recursos de Kubernetes en trabajos de Slurm. Esto proporciona a investigadores y desarrolladores flujos de trabajo de Kubernetes familiares, al tiempo que se benefician de la superior programación por lotes y gestión de recursos de Slurm.

Preguntas frecuentes

Preguntas frecuentes sobre Slurm

Un gestor de cargas de trabajo de código abierto es un software que automatiza la programación, ejecución y supervisión de trabajos de computación en infraestructura compartida, como clústeres o entornos en la nube. Al ser de código abierto, las organizaciones pueden utilizarlo, personalizarlo y ampliarlo gratuitamente para adaptarlo a sus necesidades de rendimiento, escalabilidad y operativas sin necesidad de suscripciones ni licencias empresariales.

El TOP500 es una clasificación de los sistemas informáticos no distribuidos más potentes del mundo. Slurm es el planificador preferido para más de la mitad de los 100 principales sistemas de la lista TOP500, lo que destaca su escalabilidad y rendimiento probados a escala masiva.

Sí, Slurm ofrece una gestión de recursos de GPU de primera clase, lo que permite a los usuarios solicitar recursos de GPU y CPU para garantizar que los trabajos se ejecuten de forma rápida y eficiente, al tiempo que se maximiza la utilización.

Las guías oficiales de inicio rápido para usuarios y administradores, las notas de la versión y otra documentación detallada están disponibles en el sitio web de SchedMD (que ahora forma parte de NVIDIA). NVIDIA también proporciona publicaciones técnicas en el blog y vídeos bajo demanda relacionados con la integración y las funciones de Slurm.1

Los tickets de soporte se pueden enviar a través del portal de soporte en el sitio web de SchedMD (que ahora forma parte de NVIDIA). Para validar el derecho a soporte se requiere una dirección de correo electrónico con el dominio de la organización. Los servicios de soporte, entrenamiento y consultoría de Slurm y Slinky están disponibles en NVIDIA. Esto proporciona ayuda directa de expertos en ingeniería para la implementación y la personalización.2

Slurm aprovecha su comprensión de las complejas topologías de red y sistema para permitir una asignación eficiente de las cargas de trabajo en interconexiones multinivel. Esto minimiza la latencia, maximiza el ancho de banda y mejora el rendimiento de los trabajos de extremo a extremo, lo que es especialmente importante para las cargas de trabajo de HPC e IA.

SchedMD (que ahora forma parte de NVIDIA) desarrolló Slinky como un kit de herramientas de código abierto de componentes que permite el funcionamiento de Slurm en entornos de Kubernetes, lo que cierra la brecha entre los entornos de HPC tradicionales y los nativos de la nube. Esto permite a los equipos ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, traduciendo las solicitudes de recursos de Kubernetes en trabajos de Slurm.3

Slurm está optimizado para la programación por lotes basada en colas de trabajos paralelos de gran tamaño, priorizando el rendimiento y la eficiencia del hardware. Kubernetes está diseñado para la orquestación declarativa y basada en eventos de microservicios en contenedores.4

Recursos

Lo último en gestión de cargas de trabajo

Orqueste cargas de trabajo de IA de próxima generación con Slurm de código abierto

Esta sesión de la GTC San José 2026 exploró la arquitectura actual, las mejoras recientes y el trabajo en curso impulsado por la comunidad que están ayudando a Slurm a lograr una mayor eficiencia, portabilidad e interoperabilidad para cargas de trabajo de supercomputación.

Ejecución de cargas de trabajo de GPU a gran escala en Kubernetes con Slurm

La mayoría de las organizaciones han invertido durante años en scripts de trabajo de Slurm y se enfrentan a dificultades al pasar a Kubernetes sin mantener dos entornos independientes. Slinky, un proyecto de código abierto, proporciona un nuevo enfoque para gestionar entornos de Kubernetes a escala.

Del hardware a la programación consciente de la topología

Los arquitectos de IA y los operadores de HPC se enfrentan al desafío de transformar el hardware montado en racks en recursos seguros, de alto rendimiento y fáciles de usar para los usuarios finales. Una pila de software validada, como NVIDIA Mission Control™, ofrece herramientas para la programación de varios nodos y admite tanto Slurm como Kubernetes.

Próximos pasos

¿Todo listo para empezar?

¡Descárguelo en GitHub y únase a la comunidad!

Soporte de Slurm

Manténgase al día con las nuevas versiones y obtenga asistencia directa de los ingenieros de Slurm.

Documentación de Slurm

Acceda a notas de la versión y guías de inicio rápido para Slurm.