As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Modo protegido por cluster do Slurm
Quando um cluster é executado com o modo protegido ativado, o AWS ParallelCluster monitora e rastreia as falhas de bootstrap do nó de computação à medida que os nós de computação são iniciados. Ele faz isso para detectar se essas falhas estão ocorrendo continuamente.
Se o seguinte for detectado em uma fila (partição), o cluster entrará no status protegido:
-
Falhas consecutivas de bootstrap do nó de computação ocorrem continuamente sem nenhuma inicialização bem-sucedida do nó de computação.
-
A contagem de falhas atinge um limite predefinido.
Depois que o cluster entra no status protegido, o AWS ParallelCluster desativa as filas com falhas no limite predefinido ou acima dele.
O modo protegido por cluster do Slurm foi adicionado no AWS ParallelCluster versão 3.0.0.
Você pode usar o modo protegido para reduzir o tempo e os recursos gastos no ciclo de falhas de bootstrap do nó de computação.
Parâmetro do modo protegido
protected_failure_count
protected_failure_count
especifica o número de falhas consecutivas em uma fila (partição) que ativam o status de cluster protegido.
O padrão protected_failure_count
é 10 e o modo protegido está ativado.
Se protected_failure_count
for maior que zero, o modo protegido será ativado.
Se protected_failure_count
for menor ou igual a zero, o modo protegido será desativado.
Você pode alterar o valor de protected_failure_count
adicionando o parâmetro no arquivo de configuração clustermgtd
localizado em /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
no HeadNode
.
Você pode atualizar esse parâmetro a qualquer momento e não precisa interromper a frota de computação para fazer isso. Se uma inicialização for bem-sucedida em uma fila antes que a contagem de falhas chegue a protected_failure_count
, a contagem de falhas será redefinida para zero.
Verificação de status do cluster no status protegido
Quando um cluster está no status protegido, você pode verificar o status da frota de computação e os estados dos nós.
Status da frota de computação
O status da frota de computação é PROTECTED
em um cluster executado em status protegido.
$
pcluster describe-compute-fleet --cluster-name
<cluster-name>
--region<region-id>
{ "status": "PROTECTED", "lastStatusUpdatedTime": "2022-04-22T00:31:24.000Z" }
Status do nó
Para saber quais filas (partições) têm falhas de bootstrap que ativaram o status protegido, faça login no cluster e execute o comando sinfo
. Partições com falhas de bootstrap iguais ou superiores a protected_failure_count
ficam no estado INACTIVE
. Partições sem falhas de bootstrap iguais ou superiores a protected_failure_count
ficam no estado UP
e funcionam conforme esperado.
O status PROTECTED
não afeta os trabalhos em execução. Se os trabalhos estiverem sendo executados em uma partição com falhas de bootstrap iguais ou superiores a protected_failure_count
, a partição será definida como INACTIVE
após a conclusão dos trabalhos em execução.
Considere os estados dos nós mostrados no exemplo a seguir.
$
sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST queue1* inact infinite 10 down% queue1-dy-c5xlarge-[1-10] queue1* inact infinite 3490 idle~ queue1-dy-c5xlarge-[11-3500] queue2 up infinite 10 idle~ queue2-dy-c5xlarge-[1-10]
A partição queue1
é INACTIVE
porque foram detectadas 10 falhas consecutivas de bootstrap do nó de computação.
As instâncias por trás dos nós queue1-dy-c5xlarge-[1-10]
foram iniciadas, mas falharam em se juntar ao cluster devido a um status não íntegro.
O cluster está em status protegido.
A partição queue2
não é afetada pelas falhas de bootstrap em queue1
. Está no estado UP
e ainda pode executar trabalhos.
Como desativar o status protegido
Depois que o erro de bootstrap for resolvido, você poderá executar o comando a seguir para tirar o cluster do status protegido.
$
pcluster update-compute-fleet --cluster-name<cluster-name>
\ --region<region-id>
\ --status START_REQUESTED
Falhas de bootstrap que ativam o status protegido
Os erros de bootstrap que ativam o status protegido são subdivididos nos três tipos a seguir. Para identificar o tipo e o problema, você pode verificar se o AWS ParallelCluster gerou logs. Se os logs foram gerados, você pode verificá-los para obter detalhes do erro. Para ter mais informações, consulte Recuperando e preservando logs.
-
Erro de bootstrap que faz com que uma instância seja encerrada automaticamente.
Uma instância falha no início do processo de bootstrap, como uma instância que se encerra automaticamente devido a erros no script SlurmQueues \ CustomActions \ OnNodeStart | OnNodeConfigured.
Para nós dinâmicos, procure erros semelhantes aos seguintes:
Node bootstrap error: Node ... is in power up state without valid backing instance
Para nós estáticos, procure no log
clustermgtd
(/var/log/parallelcluster/clustermgtd
) por erros semelhantes aos seguintes:Node bootstrap error: Node ... is in power up state without valid backing instance
-
Os nós
resume_timeout
ounode_replacement_timeout
expiraram.Uma instância não pode se juntar ao cluster em
resume_timeout
(para nós dinâmicos) ounode_replacement_timeout
(para nós estáticos). Ele não encerra automaticamente antes do tempo limite. Por exemplo, a rede não está configurada corretamente para o cluster e o nó é definido para o estadoDOWN
pelo Slurm após o tempo limite expirar.Para nós dinâmicos, procure erros semelhantes aos seguintes:
Node bootstrap error: Resume timeout expires for node
Para nós estáticos, procure no log
clustermgtd
(/var/log/parallelcluster/clustermgtd
) por erros semelhantes aos seguintes:Node bootstrap error: Replacement timeout expires for node ... in replacement.
-
Os nós falham na verificação de integridade.
Uma instância atrás do nó falha em uma verificação de integridade do EC2 ou na verificação de integridade de um evento agendado, e os nós são tratados como nós de falha de bootstrap. Nesse caso, a instância é encerrada por um motivo fora do controle do AWS ParallelCluster.
Procure no log
clustermgtd
(/var/log/parallelcluster/clustermgtd
) por erros semelhantes aos seguintes:Node bootstrap error: Node %s failed during bootstrap when performing health check.
-
Os nós de computação falham no registro do Slurm.
O registro do daemon
slurmd
com o daemon de controle do Slurm (slurmctld
) falha e faz com que o estado do nó de computação mude para o estadoINVALID_REG
. Os nós de computação do Slurm configurados incorretamente podem causar esse erro, como nós computados configurados com erros de especificação do nó de computação CustomSlurmSettings.Procure no arquivo de log
slurmctld
(/var/log/slurmctld.log
) no nó principal ou no arquivo de logslurmd
(/var/log/slurmd.log
) do nó de computação com falha em busca de erros semelhantes aos seguintes:Setting node %s to INVAL with reason: ...
Como depurar o modo protegido
Se seu cluster estiver em status protegido e se AWS ParallelCluster gerou logs clustermgtd
a partir de HeadNode
e dos logs de cloud-init-output
dos nós de computação problemáticos, você poderá verificar os logs para ver os detalhes do erro. Para obter mais informações sobre recuperação de logs, consulte Recuperando e preservando logs.
Log clustermgtd
(/var/log/parallelcluster/clustermgtd
) no nó principal
As mensagens de log mostram quais partições têm falhas de bootstrap e a contagem de falhas de bootstrap correspondente.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - INFO - Partitions bootstrap failure count: {'queue1': 2}, cluster will be set into protected mode if protected failure count reach threshold.
No log clustermgtd
, pesquise por Found the following bootstrap failure nodes
para descobrir qual nó falhou no bootstrap.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - WARNING - Found the following bootstrap failure nodes: (x2) ['queue1-st-c5large-1(192.168.110.155)', 'broken-st-c5large-2(192.168.65.215)']
No log clustermgtd
, pesquise por Node bootstrap error
para descobrir o motivo da falha.
[slurm_plugin.clustermgtd:_is_node_bootstrap_failure] - WARNING - Node bootstrap error: Node broken-st-c5large-2(192.168.65.215) is currently in replacement and no backing instance
log cloud-init-output
(/var/log/cloud-init-output.log
) nos nós de computação
Depois de obter o endereço IP privado do nó de falha de bootstrap no log clustermgtd
, você pode encontrar o log do nó de computação correspondente fazendo login no nó de computação ou seguindo as orientações em Recuperando e preservando logs para recuperar os logs. Na maioria dos casos, o log /var/log/cloud-init-output
do nó problemático mostra a etapa que causou a falha de bootstrap do nó de computação.