Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod
Les étiquettes sont des paires clé-valeur associées à des objets Kubernetes
Étiquettes d'état de santé des nœuds
Les node-health-status
étiquettes représentent l'état de santé des nœuds et doivent être utilisées dans le cadre du filtre de sélection des nœuds dans les nœuds sains.
Étiquette | Description |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Le nœud a passé avec succès les tests de santé de base et est disponible pour exécuter des charges de travail. Ce bilan de santé est identique aux fonctionnalités de SageMaker HyperPod résilience actuellement disponibles pour les clusters Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Le nœud a échoué aux tests de santé approfondis ou aux contrôles de l'agent de surveillance de l'état et doit être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod |
Étiquettes de contrôle de santé approfondi
Les deep-health-check-status
étiquettes représentent la progression du contrôle de santé approfondi sur un nœud spécifique. Utile pour les utilisateurs de Kubernetes qui souhaitent filtrer rapidement la progression des bilans de santé approfondis.
Étiquette | Description |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Le nœud a échoué aux tests de santé approfondis ou aux contrôles des agents de surveillance de l'état et doit être redémarré ou remplacé. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod |
Étiquettes relatives au type et à la raison du défaut
La jachère décrit les fault-reason
étiquettes fault-type
et.
-
fault-type
les étiquettes représentent des catégories de défauts de haut niveau lorsque les contrôles de santé échouent. Ils sont renseignés pour les défaillances identifiées à la fois lors des contrôles approfondis de l'état et des agents de surveillance de l'état. -
fault-reason
les étiquettes représentent la raison détaillée de la panne associée à unfault-type
.
Comment les SageMaker HyperPod étiquettes
Les rubriques suivantes traitent de la manière dont l'étiquetage est effectué en fonction des cas.
Rubriques
Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée
Lorsqu'un nouveau nœud est ajouté au cluster, et si le contrôle de santé approfondi n'est pas activé pour le groupe d'instances, SageMaker HyperPod exécute les mêmes contrôles de santé que ceux actuellement disponibles SageMaker HyperPod pour les clusters Slurm.
Si le bilan de santé est réussi, les nœuds seront marqués de l'étiquette suivante.
sagemaker.amazonaws.com/node-health-status: Schedulable
Si le bilan de santé n'aboutit pas, les nœuds seront fermés et remplacés. Ce comportement est identique à la façon dont fonctionne le bilan SageMaker HyperPod de santé pour les clusters Slurm.
Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée
Lorsqu'un nouveau nœud est ajouté à un SageMaker HyperPod cluster, et si le test de vérification approfondie de l'état est activé pour le groupe d'instances, HyperPod commencez par altérer le nœud et lancez le contrôle de santé approfondi/test de stress d'environ 2 heures sur le nœud. Il existe 3 sorties possibles des étiquettes des nœuds après le contrôle de santé approfondi.
-
Quand le test de santé approfondi réussit
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Lorsque le test de vérification approfondie de l'état échoue et que l'instance doit être remplacée
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Lorsque le test de santé approfondi échoue et que l'instance doit être redémarrée pour réexécuter le test de santé approfondi
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Si une instance échoue au test de contrôle de santé approfondi, elle sera toujours remplacée. Si les tests de vérification approfondie de l'état de santé aboutissent, la souillure du nœud sera supprimée.
En cas de panne de calcul sur les nœuds
L'agent SageMaker HyperPod de surveillance de l'état de santé surveille également en permanence l'état de santé de chaque nœud. Lorsqu'il détecte une défaillance (telle qu'GPUune panne ou un crash du pilote), l'agent marque le nœud avec l'une des étiquettes suivantes.
-
Lorsque le nœud est en mauvais état et doit être remplacé
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Lorsque le nœud est défectueux et doit être redémarré
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
L'agent de surveillance de l'état altère également le nœud lorsqu'il détecte des problèmes de santé du nœud.