Rótulos de Kubernetes relacionados à resiliência da SageMaker HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rótulos de Kubernetes relacionados à resiliência da SageMaker HyperPod

Os rótulos são pares de valores-chave anexados aos objetos do Kubernetes. SageMaker HyperPod apresenta os seguintes rótulos para as verificações de saúde que ele fornece.

Etiquetas de status de integridade do Node

Os node-health-status rótulos representam o status da integridade do nó e devem ser usados como parte do filtro seletor de nós em nós saudáveis.

Rótulo Descrição
sagemaker.amazonaws.com/node-health-status: Schedulable O nó passou pelas verificações básicas de saúde e está disponível para executar cargas de trabalho. Essa verificação de integridade é a mesma dos recursos de SageMaker HyperPod resiliência atualmente disponíveis para clusters do Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable O nó está executando verificações de integridade detalhadas e não está disponível para executar cargas de trabalho.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e precisa de uma substituição. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e requer uma reinicialização. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod

Rótulos de verificação profunda de saúde

Os deep-health-check-status rótulos representam o progresso da verificação profunda de saúde em um nó específico. Útil para os usuários do Kubernetes filtrarem rapidamente o progresso das verificações gerais de saúde profundas.

Rótulo Descrição
sagemaker.amazonaws.com/deep-health-check-status: InProgress O nó está executando verificações de integridade detalhadas e não está disponível para executar cargas de trabalho.
sagemaker.amazonaws.com/deep-health-check-status: Passed O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e precisa de uma substituição. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod.
sagemaker.amazonaws.com/deep-health-check-status: Failed O nó falhou nas verificações de integridade profundas ou nas verificações do agente de monitoramento de integridade e requer uma reinicialização ou substituição. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod

Rótulos de tipo e motivo da falha

O texto a seguir descreve os fault-reason rótulos fault-type e.

  • fault-typeos rótulos representam categorias de falhas de alto nível quando as verificações de integridade falham. Eles são preenchidos com as falhas identificadas durante as verificações profundas dos agentes de monitoramento da saúde e da saúde.

  • fault-reasonos rótulos representam o motivo detalhado da falha associado a fault-type a.

Como os SageMaker HyperPod rótulos

Os tópicos a seguir abordam como a rotulagem é feita, dependendo de vários casos.

Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade desativada

Quando um novo nó é adicionado ao cluster, e se a verificação profunda de saúde não estiver habilitada para o grupo de instâncias, SageMaker HyperPod executa as mesmas verificações de saúde das verificações de SageMaker HyperPod saúde atualmente disponíveis para clusters do Slurm.

Se a verificação de saúde for aprovada, os nós serão marcados com o rótulo a seguir.

sagemaker.amazonaws.com/node-health-status: Schedulable

Se a verificação de saúde não for aprovada, os nós serão encerrados e substituídos. Esse comportamento é o mesmo da forma como a verificação de SageMaker HyperPod integridade funciona para clusters do Slurm.

Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade ativada

Quando um novo nó é adicionado a um SageMaker HyperPod cluster e se o teste de verificação profunda de integridade estiver habilitado para o grupo de instâncias, HyperPod primeiro corrompe o nó e inicia a verificação profunda de saúde/teste de estresse de aproximadamente 2 horas no nó. Há 3 saídas possíveis dos rótulos dos nós após a verificação profunda de integridade.

  1. Quando o teste de verificação profunda de integridade for aprovado

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Quando o teste de verificação profunda de integridade falha e a instância precisa ser substituída

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Quando o teste de verificação profunda de integridade falha e a instância precisa ser reinicializada para executar novamente a verificação de integridade profunda

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Se uma instância falhar no teste de verificação profunda de integridade, ela sempre será substituída. Se os testes de verificação profunda de integridade forem bem-sucedidos, a mancha no nó será removida.

Quando há alguma falha de computação nos nós

O agente SageMaker HyperPod de monitoramento de saúde também monitora continuamente o status de saúde de cada nó. Quando detecta alguma falha (como GPU falha e falha do driver), o agente marca o nó com um dos rótulos a seguir.

  1. Quando o nó não está íntegro e precisa ser substituído

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Quando o nó não está íntegro e precisa ser reinicializado

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

O agente de monitoramento de integridade também contamina o nó quando detecta qualquer problema de integridade do nó.