As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Rótulos de Kubernetes relacionados à resiliência da SageMaker HyperPod
Os rótulos são pares de valores-chave anexados aos objetos do Kubernetes
Etiquetas de status de integridade do Node
Os node-health-status
rótulos representam o status da integridade do nó e devem ser usados como parte do filtro seletor de nós em nós saudáveis.
Rótulo | Descrição |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
O nó passou pelas verificações básicas de saúde e está disponível para executar cargas de trabalho. Essa verificação de integridade é a mesma dos recursos de SageMaker HyperPod resiliência atualmente disponíveis para clusters do Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
O nó está executando verificações de integridade detalhadas e não está disponível para executar cargas de trabalho. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e precisa de uma substituição. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e requer uma reinicialização. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod |
Rótulos de verificação profunda de saúde
Os deep-health-check-status
rótulos representam o progresso da verificação profunda de saúde em um nó específico. Útil para os usuários do Kubernetes filtrarem rapidamente o progresso das verificações gerais de saúde profundas.
Rótulo | Descrição |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
O nó está executando verificações de integridade detalhadas e não está disponível para executar cargas de trabalho. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e precisa de uma substituição. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e requer uma reinicialização ou substituição. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod |
Rótulos de tipo e motivo da falha
O texto a seguir descreve os fault-reason
rótulos fault-type
e.
-
fault-type
os rótulos representam categorias de falhas de alto nível quando as verificações de integridade falham. Eles são preenchidos com as falhas identificadas durante as verificações profundas dos agentes de monitoramento da saúde e da saúde. -
fault-reason
os rótulos representam o motivo detalhado da falha associado afault-type
a.
Como os SageMaker HyperPod rótulos
Os tópicos a seguir abordam como a rotulagem é feita, dependendo de vários casos.
Tópicos
Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade desativada
Quando um novo nó é adicionado ao cluster, e se a verificação profunda de saúde não estiver habilitada para o grupo de instâncias, SageMaker HyperPod executa as mesmas verificações de saúde das verificações de SageMaker HyperPod saúde atualmente disponíveis para clusters do Slurm.
Se a verificação de saúde for aprovada, os nós serão marcados com o rótulo a seguir.
sagemaker.amazonaws.com/node-health-status: Schedulable
Se a verificação de saúde não for aprovada, os nós serão encerrados e substituídos. Esse comportamento é o mesmo da forma como a verificação de SageMaker HyperPod integridade funciona para clusters do Slurm.
Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade ativada
Quando um novo nó é adicionado a um SageMaker HyperPod cluster e se o teste de verificação profunda de integridade estiver habilitado para o grupo de instâncias, HyperPod primeiro corrompe o nó e inicia a verificação profunda de saúde/teste de estresse de aproximadamente 2 horas no nó. Há 3 saídas possíveis dos rótulos dos nós após a verificação profunda de integridade.
-
Quando o teste de verificação profunda de integridade for aprovado
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Quando o teste de verificação profunda de integridade falha e a instância precisa ser substituída
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Quando o teste de verificação profunda de integridade falha e a instância precisa ser reinicializada para executar novamente a verificação de integridade profunda
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Se uma instância falhar no teste de verificação profunda de integridade, ela sempre será substituída. Se os testes de verificação profunda de integridade forem bem-sucedidos, a mancha no nó será removida.
Quando há alguma falha de computação nos nós
O agente SageMaker HyperPod de monitoramento de saúde também monitora continuamente o status de saúde de cada nó. Quando detecta alguma falha (como GPU falha e falha do driver), o agente marca o nó com um dos rótulos a seguir.
-
Quando o nó não está íntegro e precisa ser substituído
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Quando o nó não está íntegro e precisa ser reinicializado
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
O agente de monitoramento de integridade também contamina o nó quando detecta qualquer problema de integridade do nó.