As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS ParallelCluster processos
Esta seção se aplica aos clusters que são implantados com Slurm. Quando usado com esse agendador, AWS ParallelCluster gerencia o provisionamento e a remoção de nós de computação interagindo com o agendador de tarefas subjacente.
Para HPC clusters baseados em AWS Batch, AWS ParallelCluster depende dos recursos fornecidos pelo AWS Batch para o gerenciamento do nó de computação.
clustermgtd
As seguintes tarefas são executadas pelo daemon de gerenciamento de cluster.
-
Limpeza de partições inativas
-
Gestão de Slurm reservas e nós associados aos blocos de capacidade (consulte a seção a seguir)
-
Gerenciamento de capacidade estática: certifique-se de que a capacidade estática esteja sempre ativa e saudável
-
Sincronize o agendador com a AmazonEC2.
-
Limpeza de instâncias órfãs
-
Restaure o status do nó do agendador na EC2 rescisão da Amazon que ocorre fora do fluxo de trabalho de suspensão
-
Gerenciamento de EC2 instâncias insalubres da Amazon (falha nas verificações de EC2 saúde da Amazon)
-
Gerenciamento de eventos de manutenção programados
-
Gerenciamento de nós não íntegros do Scheduler (falha nas verificações de integridade do Scheduler)
Gestão de Slurm reservas e nós associados aos blocos de capacidade
ParallelCluster suporta reservas de capacidade sob demanda (ODCR) e blocos de capacidade para Machine Learning (CB). Ao contrárioODCR, o CB pode ter um horário de início futuro e é limitado por um horário.
O Clustermgtd pesquisa nós não íntegros em um loop e encerra todas as EC2 instâncias da Amazon que estão inativas, substituindo-as por novas instâncias se forem nós estáticos.
ParallelCluster gerencia os nós estáticos associados aos blocos de capacidade de forma diferente. AWS ParallelCluster cria um cluster mesmo que o CB ainda não esteja ativo, e as instâncias são iniciadas automaticamente quando o CB está ativo.
A ferramenta Slurm os nós correspondentes aos recursos computacionais associados aos quais ainda não estão ativos são mantidos em manutenção até CBs que a hora de início do CB seja atingida. Slurm os nós permanecerão em um estado de reserva/manutenção associado ao Slurm usuário administrador, o que significa que ele pode aceitar trabalhos, mas os trabalhos permanecerão pendentes até o Slurm a reserva foi removida.
O Clustermgtd criará e excluirá automaticamente Slurm reservas, colocando os nós CB relacionados em manutenção com base no estado CB. Quando o CB estiver ativo, Slurm a reserva será removida, os nós serão iniciados e ficarão disponíveis para os trabalhos pendentes ou para o envio de novos trabalhos.
Quando o horário de término do CB for atingido, os nós serão movidos de volta ao estado de reserva/manutenção. Cabe aos usuários reenviar/reenfileirar os trabalhos para uma nova fila/recurso de computação quando o CB não estiver mais ativo e as instâncias forem encerradas.
clusterstatusmgtd
O daemon de gerenciamento de status do cluster gerencia a atualização do status da frota de computação. A cada minuto, ele busca o status da frota armazenado em uma tabela do DynamoDB e gerencia qualquer solicitação//. STOP START
computemgtd
Os processos daemon de gerenciamento de computação (computemgtd
) são executados em cada um dos nós de computação do cluster. A cada cinco (5) minutos, o daemon de gerenciamento de computação confirma que o nó principal pode ser alcançado e está íntegro. Se passarem cinco (5) minutos durante os quais o nó principal não puder ser alcançado ou não estiver íntegro, o nó de computação será encerrado.