Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod

Les étiquettes sont des paires clé-valeur associées aux objets Kubernetes. SageMaker HyperPod introduit les étiquettes suivantes pour les bilans de santé qu'il fournit.

Étiquettes d'état de santé des nœuds

Les node-health-status étiquettes représentent l'état de santé des nœuds et doivent être utilisées dans le cadre du filtre de sélection des nœuds dans les nœuds sains.

Étiquette Description
sagemaker.amazonaws.com/node-health-status: Schedulable Le nœud a passé avec succès les tests de santé de base et est disponible pour exécuter des charges de travail. Ce bilan de santé est identique aux fonctionnalités de SageMaker HyperPod résilience actuellement disponibles pour les clusters Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable Le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Le nœud a échoué aux tests de santé approfondis ou aux contrôles de l'agent de surveillance de l'état et doit être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod

Étiquettes de contrôle de santé approfondi

Les deep-health-check-status étiquettes représentent la progression du contrôle de santé approfondi sur un nœud spécifique. Utile pour les utilisateurs de Kubernetes qui souhaitent filtrer rapidement la progression des bilans de santé approfondis.

Étiquette Description
sagemaker.amazonaws.com/deep-health-check-status: InProgress Le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail.
sagemaker.amazonaws.com/deep-health-check-status: Passed Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod.
sagemaker.amazonaws.com/deep-health-check-status: Failed Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être redémarré ou remplacé. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod

Étiquettes relatives au type et à la raison du défaut

La jachère décrit les fault-reason étiquettes fault-type et.

  • fault-typeles étiquettes représentent des catégories de défauts de haut niveau lorsque les contrôles de santé échouent. Ils sont renseignés pour les défaillances identifiées à la fois lors des contrôles approfondis de l'état et des agents de surveillance de l'état.

  • fault-reasonles étiquettes représentent la raison détaillée de la panne associée à unfault-type.

Comment les SageMaker HyperPod étiquettes

Les rubriques suivantes traitent de la manière dont l'étiquetage est effectué en fonction des cas.

Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée

Lorsqu'un nouveau nœud est ajouté au cluster, et si le contrôle de santé approfondi n'est pas activé pour le groupe d'instances, SageMaker HyperPod exécute les mêmes contrôles de santé que ceux actuellement disponibles SageMaker HyperPod pour les clusters Slurm.

Si le bilan de santé est réussi, les nœuds seront marqués de l'étiquette suivante.

sagemaker.amazonaws.com/node-health-status: Schedulable

Si le bilan de santé échoue, les nœuds seront fermés et remplacés. Ce comportement est identique au fonctionnement du bilan de SageMaker HyperPod santé pour les clusters Slurm.

Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée

Lorsqu'un nouveau nœud est ajouté à un SageMaker HyperPod cluster, et si le test de vérification approfondie de l'état est activé pour le groupe d'instances, HyperPod commencez par altérer le nœud et lancez le contrôle de santé approfondi/test de stress d'environ 2 heures sur le nœud. Il existe 3 sorties possibles des étiquettes des nœuds après le contrôle de santé approfondi.

  1. Quand le test de santé approfondi réussit

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Lorsque le test de vérification approfondie de l'état échoue et que l'instance doit être remplacée

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Lorsque le test de santé approfondi échoue et que l'instance doit être redémarrée pour réexécuter le test de santé approfondi

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Si une instance échoue au test de contrôle de santé approfondi, elle sera toujours remplacée. Si les tests de santé approfondis réussissent, la souillure du nœud sera supprimée.

En cas de panne de calcul sur les nœuds

L'agent SageMaker HyperPod de surveillance de l'état de santé surveille également en permanence l'état de santé de chaque nœud. Lorsqu'il détecte une défaillance (telle qu'GPUune panne ou un crash du pilote), l'agent marque le nœud avec l'une des étiquettes suivantes.

  1. Lorsque le nœud est en mauvais état et doit être remplacé

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Lorsque le nœud est défectueux et doit être redémarré

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

L'agent de surveillance de l'état altère également le nœud lorsqu'il détecte des problèmes de santé du nœud.