Profesional Certificado por NVIDIA

Operaciones de IA

(NCP-AIO)

Sobre Esta Certificación

La certificación NCP-AI Operations es una credencial de nivel intermedio que valida la capacidad de un candidato para monitorear, solucionar problemas y optimizar la infraestructura de IA de NVIDIA. El examen es en línea y se supervisa de forma remota, incluye de 70 a 75 preguntas y tiene un límite de tiempo de 120 minutos.

Revise cuidadosamente nuestras Preguntas Frecuentes de certificación y políticas de exámenes antes de programar su examen.

Si tiene alguna pregunta, póngase en contacto con nosotros aquí.

Tenga en cuenta que, para acceder al examen, deberá crear una cuenta de Certiverse.

Detalles del Examen de Certificación

Duración: 120 minutos  

Precio: $400 

Nivel de Certificación: Profesional  

Asunto: Operaciones de IA 

Número de preguntas: 70-75

Prerrequisitos: dos a tres años de experiencia operativa trabajando en un data center con soluciones de hardware de NVIDIA. El candidato debe poder monitorear y administrar todas las partes de una infraestructura de data center para apoyar cargas de trabajo de IA.

Idioma: Inglés 

Validez: Esta certificación tiene una validez de dos años a partir de su fecha de emisión. Se puede conseguir la certificación de nuevo mediante una nueva presentación al examen.

Credenciales: al aprobar el examen, los participantes reciben una insignia digital y un certificado opcional que indica el nivel de certificación y el tema.

Preparación Para El Examen

Temas Que Cubre el Examen

Los temas cubiertos en el examen incluyen:

  • Base Command Manager para configuración, administración y solución de problemas
  • Administración de clústeres Slurm
  • Administración de clústeres de Kubernetes
  • Herramientas de administración de sistemas para solucionar problemas y optimizar el desempeño

Audiencias Candidatas

  • Ingenieros de MLOps
  • Ingenieros de DevOps
  • Arquitectos de Soluciones
  • Arquitectos de Sistemas
  • Ingenieros de Infraestructura de IA

Entrenamiento Recomendado

Fundamentos de Infraestructura y Operaciones de IA

Un curso autogestionado que cubre componentes esenciales de la infraestructura de IA como plataformas de computación, redes y soluciones de almacenamiento. El curso también aborda operaciones de IA, centrándose en la administración de infraestructura y la orquestación de clústeres.

Taller Profesional de Operaciones de IA

Un taller de varios días en el que los participantes obtendrán experiencia práctica con tecnologías de vanguardia como DCGM de NVIDIA, redes InfiniBand, DPU NVIDIA BlueField™ y virtualización de GPU, a la vez que aprenden a aprovechar herramientas para el aprovisionamiento de infraestructura, programación de cargas de trabajo y orquestación de clústeres.

Guía de Estudio Del Examen

Explora la Guía de Estudio

Esquema del Examen

La siguiente tabla proporciona una descripción general de las áreas temáticas cubiertas en el examen de certificación y cuánto del examen se centra en ese tema.

Áreas Temáticas % del Examen Temas Abarcados
Instalación e Implementación 31%
  • Describir el Kit de Herramientas de Mission Control
  • Usar la interfaz Base View de BCM para monitorear el desempeño de clústeres, la utilización de recurso y el estado de los nodos en tiempo real.
  • Administrar la programación de trabajos y la asignación de recursos mediante el administrador de cargas de trabajo de BCM (por ejemplo, SLURM o Kubernetes)
  • Aplicar parches, actualizar el firmware y sincronizar imágenes de software en todos los nodos de clúster mediante BCM
  • Administrar cuentas de usuario, roles y permisos para garantizar el acceso seguro al clúster mediante BCM
  • Configurar y supervisar la configuración de red para nodos de clúster, DPU y switches mediante BCM
  • Diagnosticar y resolver problemas de clústeres como fallas de tareas, interrupciones de nodos o cuellos de botella de recursos mediante BCM.
  • Usar BCM para organizar y configurar los nodos de computación en categorías en función de los requisitos de hardware o carga de trabajo.
  • Mediante BCM, mantener documentación y generar informes sobre el uso, el desempeño y los problemas de los clústeres.
  •  Instalar e inicializar Kubernetes en hosts de NVIDIA mediante BCM
  • Implementar Servicios de DOCA en DPU Arm
  • Instalar Run:ai
  • Instalar Slurm
Administración 23%
  • Administrar el clúster Slurm.
  • Describir la arquitectura de data centers para cargas de trabajo de IA
  • Administrar Run:ai
  • Administrar Kubernetes
  • Configurar MIG
Administración de Cargas de Trabajo 23%
  • Implementar cargas de trabajo de inferencia con Kubernetes
  • Implementar cargas de trabajo de inferencia con Run:ai
  • Implementar cargas de trabajo de entrenamiento con Slurm
  • Implementar cargas de trabajo de entrenamiento con Run:ai
  • Usar herramientas de administración de sistemas para solucionar problemas
  • Asignar recursos entre equipos con Run:ai, Slurm y Kubernetes
  • Implementar contenedores desde NGC
Solución de Problemas y Optimización 23%
  • Solucionar Problemas de Docker
  • Solucionar problemas del servicio de administración de estructura para los sistemas NVLink y NVSwitch
  • Solucionar problemas de Base Command Manager
  • Solucionar problemas de componentes IO de Magnum
  • Solucionar problemas de rendimiento de almacenamiento
  • Solucionar problemas de implementación de un contenedor desde NGC

Contáctenos

NVIDIA ofrece capacitaciones y certificaciones para profesionales que buscan mejorar sus habilidades y conocimientos en el campo de la IA, la computación acelerada, la ciencia de datos, las redes avanzadas, los gráficos, la simulación y más.

Contáctenos para obtener información sobre cómo podemos ayudarle a lograr sus objetivos.

Manténgase Actualizado

Reciba noticias sobre capacitación, anuncios y más de NVIDIA, incluida la información más reciente sobre nuevos cursos autogestionados, talleres dirigidos por instructores, capacitaciones gratuitas, descuentos y más. Puede darse de baja en cualquier momento.