As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas de integridade do cluster para solução de problemas
As métricas de integridade do cluster são adicionadas ao CloudWatch painel AWS ParallelCluster da Amazon a partir da AWS ParallelCluster versão 3.6.0. Nas seções a seguir, você vai aprender sobre as métricas de integridade do painel e sobre ações que você pode realizar para solucionar problemas.
Tópicos
Visualizando o gráfico de Erros de provisionamento de instâncias
Se você ver um valor diferente de zero no Instance Provisioning Errors
gráfico, isso significa que a instância do Amazon EC2 para apoiar os nós do slurm falhou ao iniciar na API ou. CreateFleet
RunInstance
Vendo IAMPolicyErrors
-
O que aconteceu?
Várias instâncias falharam na inicialização, o que é causado por permissões insuficientes com código de erro
UnauthorizedOperation
. -
Como resolver?
Se você configurou um InstanceRole ou InstanceProfile personalizado, verifique suas políticas do IAM e verifique se está usando as credenciais corretas.
Verifique o arquivo
clustermgtd
para ver os detalhes do erro do nó estático. Verifique o arquivoslurm_resume.log
para ver os detalhes do erro do nó dinâmico. Use os detalhes para saber mais sobre as permissões ausentes que devem ser adicionadas.
Vendo VcpuLimitErrors
-
O que aconteceu?
AWS ParallelCluster falhou ao iniciar instâncias porque atingiu o limite de vCPU Conta da AWS para um tipo específico de instância do Amazon EC2 que você configurou para nós de computação de cluster.
-
Como resolver?
Verifique o erro
VcpuLimitExceeded
no arquivoclustermgtd
para nós estáticos e verifique se há nós dinâmicos no arquivoslurm_resume.log
para obter detalhes adicionais. Para resolver esse problema, é possível solicitar um aumento nos limites da vCPU. Para obter mais informações sobre como visualizar os limites atuais e solicitar novos limites, consulte as cotas de serviço do Amazon Elastic Compute Cloud no Guia do usuário do Amazon Elastic Compute Cloud para instâncias Linux.
Vendo VolumeLimitErrors
-
O que aconteceu?
Você atingiu o limite de volume do Amazon EBS e AWS ParallelCluster não consegue iniciar instâncias com código de erro
InsufficientVolumeCapacity
ouVolumeLimitExceeded
. Conta da AWS -
Como resolver?
Verifique o arquivo
clustermgtd
para ver se há nós estáticos, e verifique se há nós dinâmicos no arquivoslurm_resume.log
para obter detalhes adicionais sobre limite de volume. Para resolver esse problema, você pode usar um outro Região da AWS, limpar os volumes existentes ou entrar em contato com o AWS Support Center para enviar uma solicitação para aumentar seu limite de volume do Amazon EBS.
Vendo InsufficientCapacityErrors
-
O que aconteceu?
AWS ParallelCluster não tem capacidade suficiente para iniciar instâncias do Amazon EC2 em nós secundários.
-
Como resolver?
Verifique se há nós estáticos no arquivo
clustermgtd
e verifique se há nós dinâmicos no arquivoslurm_resume.log
para obter detalhes de erro de capacidade insuficientes. Para solucionar o problema, siga as orientações em https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.
OtherInstanceLaunchFailures
-
O que aconteceu?
A instância do Amazon EC2 para apoiar os nós de computação falhou ao ser iniciada com a API ou.
CreateFleet
RunInstance
-
Como resolver?
Verifique se há nós estáticos no arquivo
clustermgtd
e verifique se há nós dinâmicos no arquivoslurm_resume.log
para obter detalhes do erro.
Visualizando o gráfico de Erros de instância não saudáveis
-
O que aconteceu?
Várias instâncias de computação foram iniciadas, mas depois encerradas por não serem íntegras.
-
Como resolver?
Para obter mais informações sobre solução de problemas de nós não saudáveis, consulte Solução de problemas inesperados de substituições e encerramentos de nós.
Vendo InstanceBootstrapTimeoutError
-
O que aconteceu?
Uma instância não pode se juntar ao cluster em
resume_timeout
(para nós dinâmicos) ounode_replacement_timeout
(para nós estáticos). Isso pode ocorrer se a rede não estiver configurada corretamente para os nós de computação, ou se os scripts personalizados executados no nó de computação demorarem muito para serem concluídos. -
Como resolver?
Para nós dinâmicos, verifique no log
clustermgtd
(/var/log/parallelcluster/clustermgtd
) o endereço IP do nó de computação e erros como os seguintes:Node bootstrap error: Resume timeout expires for node
Para nós estáticos, verifique no log
clustermgtd
(/var/log/parallelcluster/clustermgtd
) o endereço IP do nó de computação e erros como os seguintes:Node bootstrap error: Replacement timeout expires for node ... in replacement.
Para obter detalhes adicionais, verifique se há erros no arquivo
/var/log/cloud-init-output.log
. Você pode recuperar endereços IP de nós de computação problemáticos a partir dos arquivos de logclustermgtd
eslurm_resume
.
Vendo EC2HealthCheckErrors
-
O que aconteceu?
Uma instância falhou em uma verificação de saúde do Amazon EC2.
-
Como resolver?
Para obter informações sobre como solucionar esse problema, consulte Solução de problemas em instâncias com falha nas verificações de status.
Vendo ScheduledEventHealthCheckErrors
-
O que aconteceu?
Uma instância falhou em uma verificação de integridade de um evento programado do Amazon EC2 e não está íntegra.
-
Como resolver?
Para obter informações sobre como solucionar esse problema, consulte Eventos programados para instâncias.
Vendo NoCorrespondingInstanceErrors
-
O que aconteceu?
AWS ParallelCluster não consigo encontrar instâncias de apoio aos nós. Os nós provavelmente terminaram automaticamente durante as operações de bootstrap. scripts SlurmQueues / CustomActions / OnNodeStart | OnNodeConfigured ou erros de rede podem produzir
NoCorrespondingInstanceErrors
. -
Como resolver?
Para obter detalhes adicionais, consulte
/var/log/cloud-init-output.log
para ver o nó de computação.
Visualizando o gráfico de Tempo de inatividade da frota de computadores
Observando um MaxDynamicNodeIdleTime
que é significativamente maior do que o limite de redução do tempo de inatividade
-
O que aconteceu?
Sua instância não está sendo encerrada corretamente.
MaxDynamicNodeIdleTime
mostra o tempo máximo em segundos em que um nó dinâmico, apoiado por uma instância do Amazon EC2, fica ocioso. O limite de redução do tempo de inatividade é derivado do parâmetro ScaledownIdletime de configuração do cluster. Quando um nó de computação fica ocioso por mais de segundos do Idle Time Scaledown, desliga o nó e Slurm AWS ParallelCluster encerra a instância de backup. Nesse caso, algo está impedindo o encerramento da instância. -
Como resolver?
Para obter mais informações sobre esse problema, consulte Substituindo, encerrando ou desligando instâncias e nós problemáticos em Solucionar problemas de escala.