Profissional Certificado pela NVIDIA

Operações de IA

(NCP-AIO)

Sobre Esta Certificação

A certificação NCP-AI Operations é uma credencial de nível intermediário que valida a capacidade do candidato de monitorar, solucionar problemas e otimizar a infraestrutura de IA da NVIDIA. O exame é online e supervisionado remotamente, inclui 70 a 75 perguntas e tem um limite de tempo de 120 minutos.

Revise cuidadosamente nossas Perguntas Frequentes de certificação e políticas de exame antes de agendar seu exame.

Caso tenha alguma pergunta, fale conosco aqui.

Observação: para acessar o exame, você precisará criar uma conta do Certiverse.

Detalhes do Exame de Certificação

Duração: 120 minutos  

Preço: US$ 400 

Nível de certificação: Profissional  

Assunto: Operações de IA 

Número de perguntas: 70-75

Pré-requisitos: dois a três anos de experiência operacional trabalhando em um data center com soluções de hardware da NVIDIA. O candidato deve ser capaz de monitorar e gerenciar todas as partes de uma infraestrutura de data center em suporte a cargas de trabalho de IA.

Idioma: Inglês 

Validade: Dois anos a partir da data de emissão. A certificação pode ser renovada por meio de uma nova solicitação de exame.

Credenciais: Após a aprovação no exame, os participantes receberão um selo digital e um certificado opcional indicando o nível de certificação e o tópico.

Preparação para o Exame

Assuntos Abordados no Exame

Os tópicos abordados no exame incluem:

  • Base Command Manager para configuração, gerenciamento e solução de problemas
  • Administração do cluster Slurm
  • Administração do cluster Kubernetes
  • Ferramentas de gerenciamento de sistemas para solução de problemas e otimização de desempenho

Público-Alvo

  • Engenheiros de MLOps
  • Engenheiros de DevOps
  • Arquitetos de soluções
  • Arquitetos de sistemas
  • Engenheiros de infraestrutura de IA

Treinamento Recomendado

Conceitos Básicos de Infraestrutura e Operações de IA

Um curso autônomo que abrange componentes essenciais da infraestrutura de IA, incluindo plataformas de computação, soluções de rede e armazenamento. O curso também aborda operações de IA, com foco no gerenciamento de infraestrutura e na orquestração de clusters.

Workshop Profissional de Operações de IA

Um workshop de vários dias, no qual os participantes obterão experiência prática com tecnologias de ponta, como o DCGM da NVIDIA, redes InfiniBand, DPUs NVIDIA BlueField™ e virtualização de GPUs, aprendendo a aproveitar ferramentas para provisionamento de infraestrutura, agendamento de workload e orquestração de clusters.

Guia de Estudo para o Exame

Conheça o Guia de Estudos

Roteiro do Exame

A tabela abaixo fornece uma visão geral das áreas temáticas abordadas no exame de certificação e quanto do exame está focado nesse assunto. 

Áreas Temáticas % do Exame Tópicos Abordados
Instalação e Implantação 31%
  • Descreva o Kit de Ferramentas de Mission Control
  • Use a interface Base View do BCM para monitorar o desempenho do cluster, a utilização de recursos e a integridade dos nós em tempo real.
  • Gerencie o agendamento de trabalhos e a alocação de recursos usando o gerenciador de carga de trabalho da BCM (por exemplo, SLURM ou Kubernetes)
  • Aplique patches, atualize o firmware e sincronize imagens de software em nós do cluster usando o BCM
  • Administre contas, funções e permissões de usuários para garantir o acesso seguro ao cluster usando o BCM
  • Configure e monitore as configurações de rede para nós de cluster, DPUs e switches usando o BCM
  • Diagnostique e resolva problemas de clusters, como falhas de trabalhos, interrupções de nós ou gargalos de recursos, usando o BCM.
  • Use o BCM para organizar e configurar nós de computação em categorias com base nos requisitos de hardware ou requisitos de carga de trabalho.
  • Usando o BCM, mantenha a documentação e gere relatórios sobre o uso, o desempenho e os problemas do cluster.
  •  Instale e inicialize o Kubernetes em hosts NVIDIA usando o BCM
  • Implante os Serviços do DOCA na DPU Arm
  • Instale Run:ai
  • Instale o Slurm
Administração 23%
  • Administre o cluster Slurm.
  • Descreva a arquitetura de data center para cargas de trabalho de IA
  • Administre o Run:ai
  • Administre o Kubernetes
  • Configure o MIG
Gerenciamento de cargas de trabalho 23%
  • Implante cargas de trabalho de inferência com Kubernetes
  • Implante cargas de trabalho de inferência com o Run:ai
  • Implante cargas de trabalho de treinamento com o Slurm
  • Implante cargas de trabalho de treinamento com o Run:ai
  • Use ferramentas de gerenciamento de sistemas para solucionar problemas
  • Aloque recursos entre equipes com Run:ai, Slurm e Kubernetes
  • Implante contêineres do NGC
Solução de Problemas e Otimização 23%
  • Solucione problemas do Docker
  • Solucione problemas do serviço de gerenciador de malha para sistemas NVLink e NVSwitch
  • Solucione problemas do Base Command Manager
  • Solucione problemas dos componentes do Magnum IO
  • Solucione problemas de desempenho do armazenamento
  • Solucione problemas de implantação de um contêiner do NGC

Fale Conosco

A NVIDIA oferece treinamento e certificação para profissionais que desejam aprimorar suas habilidades e conhecimentos no campo da IA, computação acelerada, ciência de dados, redes avançadas, gráficos, simulação e muito mais.

Fale conosco para saber como podemos ajudar você a alcançar seus objetivos.

Fique Atualizado

Receba notícias, anúncios e muito mais da NVIDIA, incluindo as informações mais recentes sobre novos treinamentos autoguiados, workshops liderados por instrutor, treinamento gratuito, descontos e muito mais. A inscrição pode ser cancelada a qualquer momento.