AWS ParallelCluster processos - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS ParallelCluster processos

Esta seção se aplica aos clusters que são implantados com Slurm. Quando usado com esse agendador, AWS ParallelCluster gerencia o provisionamento e a remoção de nós de computação interagindo com o agendador de tarefas subjacente.

Para HPC clusters baseados em AWS Batch, AWS ParallelCluster depende dos recursos fornecidos pelo AWS Batch para o gerenciamento do nó de computação.

clustermgtd

As seguintes tarefas são executadas pelo daemon de gerenciamento de cluster.

  • Limpeza de partições inativas

  • Gestão de Slurm reservas e nós associados aos blocos de capacidade (consulte a seção a seguir)

  • Gerenciamento de capacidade estática: certifique-se de que a capacidade estática esteja sempre ativa e saudável

  • Sincronize o agendador com a AmazonEC2.

  • Limpeza de instâncias órfãs

  • Restaure o status do nó do agendador na EC2 rescisão da Amazon que ocorre fora do fluxo de trabalho de suspensão

  • Gerenciamento de EC2 instâncias insalubres da Amazon (falha nas verificações de EC2 saúde da Amazon)

  • Gerenciamento de eventos de manutenção programados

  • Gerenciamento de nós não íntegros do Scheduler (falha nas verificações de integridade do Scheduler)

Gestão de Slurm reservas e nós associados aos blocos de capacidade

ParallelCluster suporta reservas de capacidade sob demanda (ODCR) e blocos de capacidade para Machine Learning (CB). Ao contrárioODCR, o CB pode ter um horário de início futuro e é limitado por um horário.

O Clustermgtd pesquisa nós não íntegros em um loop e encerra todas as EC2 instâncias da Amazon que estão inativas, substituindo-as por novas instâncias se forem nós estáticos.

ParallelCluster gerencia os nós estáticos associados aos blocos de capacidade de forma diferente. AWS ParallelCluster cria um cluster mesmo que o CB ainda não esteja ativo, e as instâncias são iniciadas automaticamente quando o CB está ativo.

A ferramenta Slurm os nós correspondentes aos recursos computacionais associados aos quais ainda não estão ativos são mantidos em manutenção até CBs que a hora de início do CB seja atingida. Slurm os nós permanecerão em um estado de reserva/manutenção associado ao Slurm usuário administrador, o que significa que ele pode aceitar trabalhos, mas os trabalhos permanecerão pendentes até o Slurm a reserva foi removida.

O Clustermgtd criará e excluirá automaticamente Slurm reservas, colocando os nós CB relacionados em manutenção com base no estado CB. Quando o CB estiver ativo, Slurm a reserva será removida, os nós serão iniciados e ficarão disponíveis para os trabalhos pendentes ou para o envio de novos trabalhos.

Quando o horário de término do CB for atingido, os nós serão movidos de volta ao estado de reserva/manutenção. Cabe aos usuários reenviar/reenfileirar os trabalhos para uma nova fila/recurso de computação quando o CB não estiver mais ativo e as instâncias forem encerradas.

clusterstatusmgtd

O daemon de gerenciamento de status do cluster gerencia a atualização do status da frota de computação. A cada minuto, ele busca o status da frota armazenado em uma tabela do DynamoDB e gerencia qualquer solicitação//. STOP START

computemgtd

Os processos daemon de gerenciamento de computação (computemgtd) são executados em cada um dos nós de computação do cluster. A cada cinco (5) minutos, o daemon de gerenciamento de computação confirma que o nó principal pode ser alcançado e está íntegro. Se passarem cinco (5) minutos durante os quais o nó principal não puder ser alcançado ou não estiver íntegro, o nó de computação será encerrado.