clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster processos

Esta seção se aplica aos clusters que são implantados com o Slurm. Quando usado com esse agendador, AWS ParallelCluster interage com o agendador de tarefas subjacente para gerenciar o provisionamento e a remoção dos nós de computação.

Para clusters de HPC baseados em AWS Batch, AWS ParallelCluster depende dos recursos fornecidos pelo AWS Batch para gerenciar nós de computação.

`clustermgtd`

O daemon de gerenciamento de cluster (clustermgtd) executa as seguintes tarefas:

Limpe partições inativas
Gerencie Slurm reservas e nós associados aos blocos de capacidade (consulte a seção a seguir)
Gerencie a capacidade estática para garantir que ela esteja sempre ativa e saudável
Programador de sincronização com o Amazon EC2.
Limpe instâncias órfãs
Restaure o status do nó do agendador após o término do Amazon EC2 que ocorra fora do fluxo de trabalho de suspensão
Gerencie instâncias insalubres do Amazon EC2 (aquelas que falham nas verificações de saúde do Amazon EC2)
Gerencie eventos de manutenção programados
Gerencie nós do agendador não íntegros (aqueles que falham nas verificações de integridade do agendador)

Gerenciamento de Slurm reservas e nós associados aos blocos de capacidade

ParallelCluster suporta reservas de capacidade sob demanda (ODCR) e blocos de capacidade para Machine Learning (CB). Diferentemente do ODCR, o CB pode ser agendado para começar no futuro e tem um limite de tempo.

clustermgtdpesquisa nós não íntegros em um loop, encerra todas as instâncias do Amazon EC2 que estejam inativas e as substitui por novas instâncias se forem nós estáticos.

AWS ParallelCluster gerencia os nós estáticos associados aos blocos de capacidade de forma diferente — ele cria um cluster mesmo que o CB ainda não esteja ativo e inicia automaticamente as instâncias quando o CB está ativo.

Os Slurm nós que correspondem aos recursos computacionais associados aos quais ainda não estão ativos são mantidos no estado de manutenção até CBs que a hora de início do CB seja atingida. Esses Slurm nós permanecem em um reservation/maintenance estado associado ao usuário Slurm administrador, o que significa que eles podem aceitar trabalhos, mas os trabalhos permanecem pendentes até que a Slurm reserva seja removida.

clustermgtdcria ou exclui Slurm reservas automaticamente — coloca os nós CB relacionados em um estado de manutenção com base no estado CB. Quando o CB se torna ativo, a Slurm reserva é removida, os nós são iniciados e ficam disponíveis para os trabalhos pendentes ou para o envio de novos trabalhos.

Quando a hora de término do CB é atingida, os nós são movidos de volta para um reservation/maintenance estado. Cabe aos usuários trabalharem resubmit/requeue em um novo queue/compute recurso quando o CB não estiver mais ativo e as instâncias forem encerradas.

`clusterstatusmgtd`

O daemon de gerenciamento de status do cluster (clusterstatusmgtd) gerencia a atualização do status da frota de computação. A cada minuto, ele busca o status da frota armazenado em uma tabela do DynamoDB e gerencia qualquer solicitação. STOP/START

`computemgtd`

Os processos daemon de gerenciamento de computação (computemgtd) são executados em cada um dos nós de computação do cluster. A cada cinco (5) minutos, o daemon de gerenciamento de computação confirma que o nó principal pode ser alcançado e está íntegro. Se passarem cinco (5) minutos durante os quais o nó principal não puder ser alcançado ou não estiver íntegro, o nó de computação será encerrado.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como AWS ParallelCluster funciona

AWS serviços usados por AWS ParallelCluster