Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

AWS ParallelCluster processos - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS ParallelCluster processos

Esta seção se aplica aos clusters que são implantados com Slurm. Quando usado com esse agendador, AWS ParallelCluster gerencia o provisionamento e a remoção de nós de computação interagindo com o agendador de tarefas subjacente.

Para clusters de HPC baseados em AWS Batch, AWS ParallelCluster depende dos recursos fornecidos pelo AWS Batch para o gerenciamento de nós de computação.

clustermgtd

As seguintes tarefas são executadas pelo daemon de gerenciamento de cluster.

  • Limpeza de partições inativas

  • Gestão de Slurm reservas e nós associados aos blocos de capacidade (consulte a seção a seguir)

  • Gerenciamento de capacidade estática: certifique-se de que a capacidade estática esteja sempre ativa e saudável

  • Sincronize o agendador com a Amazon EC2 .

  • Limpeza de instâncias órfãs

  • Restaure o status do nó do agendador na EC2 rescisão da Amazon que ocorre fora do fluxo de trabalho de suspensão

  • Gerenciamento de EC2 instâncias insalubres da Amazon (falha nas verificações de EC2 saúde da Amazon)

  • Gerenciamento de eventos de manutenção programados

  • Gerenciamento de nós não íntegros do Scheduler (falha nas verificações de integridade do Scheduler)

Gestão de Slurm reservas e nós associados aos blocos de capacidade

ParallelCluster suporta reservas de capacidade sob demanda (ODCR) e blocos de capacidade para Machine Learning (CB). Diferentemente do ODCR, o CB pode ser agendado para começar no futuro e tem um limite de tempo.

O Clustermgtd pesquisa nós não íntegros em um loop e encerra todas as EC2 instâncias da Amazon que estão inativas, substituindo-as por novas instâncias se forem nós estáticos.

ParallelCluster gerencia os nós estáticos associados aos blocos de capacidade de forma diferente. AWS ParallelCluster cria um cluster mesmo que o CB ainda não esteja ativo, e as instâncias são iniciadas automaticamente quando o CB está ativo.

A ferramenta Slurm os nós correspondentes aos recursos computacionais associados aos quais ainda não estão ativos são mantidos em manutenção até CBs que a hora de início do CB seja atingida. Slurm os nós permanecerão em um estado de reserva/manutenção associado ao Slurm usuário administrador, o que significa que ele pode aceitar trabalhos, mas os trabalhos permanecerão pendentes até o Slurm a reserva foi removida.

O Clustermgtd criará e excluirá automaticamente Slurm reservas, colocando os nós CB relacionados em manutenção com base no estado CB. Quando o CB estiver ativo, Slurm a reserva será removida, os nós serão iniciados e ficarão disponíveis para os trabalhos pendentes ou para o envio de novos trabalhos.

Quando o horário de término do CB for atingido, os nós serão movidos de volta para um reservation/maintenance state. It’s up to users to resubmit/requeue the jobs to a new queue/compute -resource quando o CB não estiver mais ativo e as instâncias forem encerradas.

clusterstatusmgtd

O daemon de gerenciamento de status do cluster gerencia a atualização do status da frota de computação. A cada minuto, ele busca o status da frota armazenado em uma tabela do DynamoDB e gerencia qualquer solicitação STOP/START.

computemgtd

Os processos daemon de gerenciamento de computação (computemgtd) são executados em cada um dos nós de computação do cluster. A cada cinco (5) minutos, o daemon de gerenciamento de computação confirma que o nó principal pode ser alcançado e está íntegro. Se passarem cinco (5) minutos durante os quais o nó principal não puder ser alcançado ou não estiver íntegro, o nó de computação será encerrado.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.