Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod
Labels sind Schlüssel-Wert-Paare, die an Kubernetes-Objekte
Beschriftungen für den Zustand des Knotens
Die node-health-status
Beschriftungen stellen den Status des Knotenzustands dar und können als Teil des Knotenauswahlfilters in fehlerfreien Knoten verwendet werden.
Label (Bezeichnung) | Beschreibung |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Der Knoten hat die grundlegenden Integritätsprüfungen bestanden und ist für die Ausführung von Workloads verfügbar. Diese Zustandsprüfung entspricht den derzeit verfügbaren SageMaker HyperPod Resilienzfunktionen für Slurm-Cluster. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss ersetzt werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt. SageMaker HyperPod |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Der Knoten hat die gründlichen Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss neu gestartet werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. SageMaker HyperPod |
Etiketten für umfassende Gesundheitschecks
Die deep-health-check-status
Beschriftungen stellen den Fortschritt der gründlichen Integritätsprüfung auf einem bestimmten Knoten dar. Hilfreich für Kubernetes-Benutzer, um schnell nach dem Fortschritt der allgemeinen Deep Health Checks zu filtern.
Label (Bezeichnung) | Beschreibung |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss ersetzt werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt. SageMaker HyperPod |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Der Knoten hat die gründlichen Integritätsprüfungen oder die Prüfungen des Health Monitoring Agents nicht bestanden und muss neu gestartet oder ausgetauscht werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. SageMaker HyperPod |
Bezeichnungen für Art und Ursache des Fehlers
Im Folgenden werden die fault-reason
Bezeichnungen fault-type
und beschrieben.
-
fault-type
Beschriftungen stehen für allgemeine Fehlerkategorien, wenn Integritätsprüfungen fehlschlagen. Diese werden für Fehler aufgefüllt, die sowohl bei gründlichen Integritätsprüfungen als auch bei der Integritätsüberwachung der Agenten festgestellt wurden. -
fault-reason
Beschriftungen stellen den detaillierten Fehlergrund dar, der mit einem verknüpft ist.fault-type
Wie SageMaker HyperPod Beschriftungen
In den folgenden Themen wird beschrieben, wie die Etikettierung je nach Fall erfolgt.
Themen
- Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für die Deep-Health-Überprüfung deaktiviert ist
- Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für den Deep Health Check aktiviert ist
- Wenn es Rechenausfälle auf den Knoten gibt
Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für die Deep-Health-Überprüfung deaktiviert ist
Wenn ein neuer Knoten zum Cluster hinzugefügt wird und wenn der Deep Health Check für die Instanzgruppe nicht aktiviert ist, SageMaker HyperPod werden dieselben Integritätsprüfungen durchgeführt wie die derzeit verfügbaren SageMaker HyperPod Integritätsprüfungen für Slurm-Cluster.
Wenn die Zustandsprüfung erfolgreich ist, werden die Knoten mit der folgenden Bezeichnung gekennzeichnet.
sagemaker.amazonaws.com/node-health-status: Schedulable
Wenn die Zustandsprüfung nicht bestanden wird, werden die Knoten beendet und ersetzt. Dieses Verhalten entspricht der Funktionsweise der Integritätsprüfung für Slurm-Cluster. SageMaker HyperPod
Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für den Deep Health Check aktiviert ist
Wenn ein neuer Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird und der Deep Health Check-Test für die Instanzgruppe aktiviert ist, wird HyperPod zuerst der Knoten verunreinigt und der ~2-stündige Deep Health Check/Stresstest auf dem Knoten gestartet. Es gibt 3 mögliche Ausgaben der Node-Labels nach dem Deep Health Check.
-
Wenn der Deep-Health-Check-Test erfolgreich ist
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Wenn der Deep Health Check-Test fehlschlägt und die Instanz ersetzt werden muss
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Wenn der Deep Health Check-Test fehlschlägt und die Instance neu gestartet werden muss, um den Deep Health Check erneut auszuführen
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Wenn eine Instance den Deep Health Check-Test nicht besteht, wird die Instanz immer ersetzt. Wenn der Deep Health Check-Test erfolgreich ist, wird der Makel auf dem Knoten entfernt.
Wenn es Rechenausfälle auf den Knoten gibt
Der SageMaker HyperPod Health Monitor-Agent überwacht außerdem kontinuierlich den Integritätsstatus jedes Knotens. Wenn er Fehler erkennt (z. B. GPU Fehler und Treiberabsturz), kennzeichnet der Agent den Knoten mit einer der folgenden Bezeichnungen.
-
Wenn der Knoten fehlerhaft ist und ersetzt werden muss
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Wenn der Knoten fehlerhaft ist und neu gestartet werden muss
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Der Health Monitor-Agent verfälscht den Knoten auch, wenn er Probleme mit dem Zustand des Knotens feststellt.