Slurm: El estándar para la orquestación de HPC e IA

Slurm: Administrador de Cargas de Trabajo de HPC y IA de Código Abierto

El estándar para la orquestación de HPC e IA.

Descripción general

Administración de Cargas de Trabajo de Código Abierto

Slurm es un administrador de cargas de trabajo de código abierto diseñado para administrar de manera eficiente casi cualquier carga de trabajo y ofrecer un rendimiento comprobado a escala masiva. Usa una estructura jerárquica que consiste en un controlador, nodos y particiones para asignar trabajos en función de las políticas y los recursos, lo que optimiza la distribución de las cargas de trabajo, maximiza la utilización de clústeres y garantiza una ejecución eficiente de trabajos. Slurm, desarrollado y mantenido por ingenieros de SchedMD (ahora parte de NVIDIA) con profunda experiencia en computación de alto desempeño (HPC) e IA, es el programador preferido para más de la mitad de los 100 sistemas principales en TOP500.

Obtenga Asistencia para Slurm

Los servicios de asistencia, capacitación y consulta de Slurm y Slinky ahora están disponibles en NVIDIA. Desde la implementación hasta la personalización, obtenga ayuda directa para ingeniería de los expertos para utilizar Slurm al máximo de su capacidad.

Slurm para Kubernetes

Slinky proporciona un potente conjunto de herramientas para llevar las capacidades de Slurm a Kubernetes. Ofrece a los usuarios flexibilidad y facilidad de uso para administrar cargas de trabajo de entrenamiento de HPC, nativas de la nube y de IA.

¿Qué es Slurm?

Slurm es el administrador de cargas de trabajo de código abierto líder en el mercado para HPC e IA, en el que confían muchos de los entornos de supercomputación e IA más grandes del mundo.

Slurm asigna acceso exclusivo o no exclusivo a los recursos (nodos de computación) a los usuarios durante un cierto tiempo para que puedan realizar el trabajo. Luego, proporciona un framework para iniciar, ejecutar y monitorear el trabajo (normalmente un trabajo paralelo) en el conjunto de nodos asignados. Finalmente, Slurm arbitra las solicitudes conflictivas de recursos mediante la administración de una cola de trabajo pendiente.

Funciones

Una Mirada Más Cercana sobre Slurm

El administrador de cargas de trabajo para las mejores supercomputadoras del mundo.

Escalabilidad y Rendimiento Comprobados para los Clústeres de HPC e IA

Administre de manera eficiente millones de trabajos en los clústeres de CPU y GPU heterogéneos más grandes con el administrador de cargas de trabajo líder. Logre una alta utilización y un desempeño consistente en todos los entornos, desde los pequeños laboratorios hasta las supercomputadoras de exaescala de primer nivel.

Asignación de Recursos Optimizada

Acelere la ejecución de trabajos y mejore la productividad con capacidades sofisticadas de programación y priorización, incluida la administración de políticas compleja, la calidad de servicio y la asignación de recursos equilibrada que se alinea con los acuerdos y las prioridades de nivel de servicio de la organización.

Reconocimiento de Topología Avanzado y Planificación

Aproveche la comprensión de Slurm de las complejas topologías de redes y sistemas para posibilitar una colocación eficiente de cargas de trabajo en interconexiones de múltiples niveles. Minimice la latencia, maximice el ancho de banda y mejore el desempeño integral de los trabajos.

Amplia Accesibilidad: Implementaciones Locales y en la Nube

Desarrolle y expanda con el tiempo con un administrador de cargas de trabajo de código abierto que proporciona código transparente, desarrollo activo, costo eficiente, innovación ágil, una comunidad de usuarios fuerte. Admita implementaciones locales, en la nube e híbridas.

Descargar Slurm

Slurm es completamente de código abierto y compatible con cualquier hardware, lo que proporciona total transparencia y flexibilidad para la administración de recursos y la programación de trabajos. Implemente Slurm, contribuya a su crecimiento e intégrelo a la perfección en su pila de infraestructura.

¡Descúbralo en GitHub y únase a la comunidad!

Tecnología

Administración de Recursos y Programación de Trabajos

La base de Slurm es asignar recursos, administrar el trabajo pendiente y ejecutar trabajos, pero son los detalles de la arquitectura de Slurm los que lo convierten en el sistema de administración líder para las cargas de trabajo de HPC e IA.

Administración de Recursos de GPU

Con la administración de recursos de GPU de clase líder, Slurm permite a los usuarios solicitar recursos de GPU y CPU, lo que garantiza que los trabajos se ejecuten de forma rápida y eficiente con la máxima utilización.

Integración en la Nube

Slurm activa automáticamente instancias de nube en función de la profundidad de la cola y los requisitos del trabajo mediante el escalado automático y el desbordamiento a la nube híbrida, habilitado por las API de transferencia de estado representacional (REST) y la integración con los principales proveedores de nube.

Independencia de Hardware

Slurm se ejecuta en casi cualquier clúster acelerado por CPU o GPU, con una amplia compatibilidad con hardware diseñada para data centers modernos y heterogéneos que ejecutan una variedad de cargas de trabajo.

Casos de uso

Administración de Cargas de Trabajo con Slurm

Descubra cómo puede administrar recursos de computación mediante el administrador de cargas de trabajo de código abierto en el que confían los laboratorios de investigación y los líderes de IA de vanguardia.

Sistemas a Escala Masiva

La administración de cientos de miles de núcleos, millones de trabajos y hardware diverso simultáneamente requiere más que la programación básica. Slurm maneja la concurrencia extrema con colas de trabajos jerárquicas, el enrutamiento sensible a la topología y el empaquetado de trabajos inteligente que maximiza el rendimiento. La administración de energía integrada, la aplicación de políticas y los informes detallados mantienen las implementaciones masivas funcionando de manera eficiente y responsable a cualquier escala.

Entrenamiento de HPC e IA

Al entrenar grandes modelos de IA o ejecutar simulaciones de múltiples físicas, la colocación de trabajos es tan importante como la computación en bruto. La programación sensible a la topología de Slurm planifica las cargas de trabajo de múltiples nodos en interconexiones de múltiples capas mediante la asignación de trabajos a los nodos que están físicamente más cercanos en la estructura de la red, lo que aumenta el desempeño al reducir la sobrecarga de comunicación. En combinación con la asignación de recursos sensible a la GPU e impulsada por políticas, los equipos pueden ejecutar cargas de trabajo distribuidas de manera predecible sin esperar trabajos de menor prioridad o mal colocados.

Clústeres de Kubernetes

Slinky es un kit de herramientas de componentes que permite la operación de Slurm en entornos de Kubernetes, lo que cierra la brecha entre la HPC tradicional y los entornos nativos de la nube. Los equipos pueden ejecutar cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, lo que traduce las solicitudes de recursos de Kubernetes en trabajos de Slurm. Esto brinda a los investigadores y desarrolladores workflows familiares de Kubernetes, a la vez que se benefician de la programación por lotes y la gobernanza de recursos superiores de Slurm.

Preguntas frecuentes

Preguntas Frecuentes sobre Slurm

Un administrador de cargas de trabajo de código abierto es un software que automatiza la programación, la ejecución y el monitoreo de los trabajos de computación en toda la infraestructura compartida, como los clústeres o los entornos de nube. Debido a que es de código abierto, las organizaciones pueden usarlo, personalizarlo y extenderlo libremente para satisfacer sus necesidades operativas, de escalabilidad y de desempeño, sin suscripciones ni licencias empresariales.

TOP500 es una clasificación de los sistemas de computación no distribuidos más potentes del mundo. Slurm es el programador elegido para más de la mitad de los 100 sistemas principales de la lista TOP500, lo que destaca su escalabilidad y su rendimiento comprobados a escala masiva.

Sí, Slurm ofrece una administración de recursos de GPU líder en su clase, lo que permite a los usuarios solicitar recursos de GPU y CPU para garantizar que los trabajos se ejecuten de forma rápida y eficiente, a la vez que se maximiza la utilización.

Las guías oficiales de inicio rápido para usuarios y administradores, las notas de lanzamiento y otra documentación detallada están disponibles en el sitio web de SchedMD (ahora parte de NVIDIA). NVIDIA también proporciona publicaciones en el blog técnico y videos a demanda relacionados con la integración y las funciones de Slurm.1

Se pueden enviar tickets de asistencia a través del portal de asistencia en el sitio web de SchedMD (ahora parte de NVIDIA). Se requiere una dirección de correo electrónico con el dominio de su organización para validar su derecho a la asistencia. Los servicios de asistencia, capacitación y consulta de Slurm y Slinky están disponibles en NVIDIA. Esto proporciona ayuda directa de expertos en ingeniería para la implementación y la personalización.2

Slurm aprovecha su comprensión de las complejas topologías de redes y sistemas para posibilitar una colocación eficiente de cargas de trabajo en interconexiones de múltiples niveles. Esto minimiza la latencia, maximiza el ancho de banda y mejora el desempeño del trabajo integral, que es especialmente crítico para las cargas de trabajo de entrenamiento de HPC e IA.

SchedMD (ahora parte de NVIDIA) desarrolló Slinky como un kit de herramientas de código abierto de componentes que permite la operación de Slurm en entornos Kubernetes, lo que cierra la brecha entre la HPC tradicional y los entornos nativos de la nube. Permite que los equipos ejecuten cargas de trabajo de Slurm y Kubernetes en grupos de nodos compartidos, lo que traduce las solicitudes de recursos de Kubernetes en trabajos de Slurm.3

Slurm está optimizado para la programación de lotes basada en colas de grandes trabajos paralelos, priorizando el rendimiento y la eficiencia de hardware. Kubernetes está diseñado para la orquestación declarativa y basada en eventos de microservicios en contenedores.4

Recursos

Lo Último en Administración de Cargas de Trabajo

Orqueste Cargas de Trabajo de IA de Última Generación con Slurm de Código Abierto

Esta sesión de GTC San José 2026 exploró la arquitectura actual, las mejoras recientes y el trabajo en curso impulsado por la comunidad que están ayudando a Slurm a alcanzar una mayor eficiencia, portabilidad e interoperabilidad para las cargas de trabajo de supercomputación.

Ejecución de Cargas de Trabajo de GPU a Gran Escala en Kubernetes con Slurm

La mayoría de las organizaciones tienen años de inversión en los scripts de trabajo de Slurm y enfrentan desafíos en la transición a Kubernetes sin mantener dos entornos separados. Slinky, un proyecto de código abierto, proporciona un nuevo enfoque para administrar entornos de Kubernetes a escala.

Del Hardware a la Programación con Reconocimiento de Topología

Los arquitectos de IA y los operadores de HPC enfrentan el desafío de transformar el hardware en bastidor en recursos seguros, de alto desempeño y fácilmente consumibles para los usuarios finales. Una pila de software validada, como NVIDIA Mission Control™, ofrece herramientas para la programación de múltiples nodos y es compatible con Slurm y Kubernetes.

Próximos pasos

¿Todo listo para comenzar?

¡Descargue en GitHub y únase a la comunidad!

Compatibilidad con Slurm

Manténgase al día con los nuevos lanzamientos y obtenga asistencia directa de los ingenieros de Slurm.

Documentación de Slurm

Acceda a las notas de lanzamiento y las guías de inicio rápido para Slurm.