Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod

Labels sind Schlüssel-Wert-Paare, die an Kubernetes-Objekte angehängt werden. SageMaker HyperPod führt die folgenden Bezeichnungen für die bereitgestellten Zustandsprüfungen ein.

Beschriftungen für den Zustand des Knotens

Die node-health-status Beschriftungen stellen den Status des Knotenzustands dar und können als Teil des Knotenauswahlfilters in fehlerfreien Knoten verwendet werden.

Label (Bezeichnung) Beschreibung
sagemaker.amazonaws.com/node-health-status: Schedulable Der Knoten hat die grundlegenden Integritätsprüfungen bestanden und ist für die Ausführung von Workloads verfügbar. Diese Zustandsprüfung entspricht den derzeit verfügbaren SageMaker HyperPod Resilienzfunktionen für Slurm-Cluster.
sagemaker.amazonaws.com/node-health-status: Unschedulable Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss ersetzt werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt. SageMaker HyperPod
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Der Knoten hat die gründlichen Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss neu gestartet werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. SageMaker HyperPod

Etiketten für umfassende Gesundheitschecks

Die deep-health-check-status Beschriftungen stellen den Fortschritt der gründlichen Integritätsprüfung auf einem bestimmten Knoten dar. Hilfreich für Kubernetes-Benutzer, um schnell nach dem Fortschritt der allgemeinen Deep Health Checks zu filtern.

Label (Bezeichnung) Beschreibung
sagemaker.amazonaws.com/deep-health-check-status: InProgress Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar.
sagemaker.amazonaws.com/deep-health-check-status: Passed Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss ersetzt werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt. SageMaker HyperPod
sagemaker.amazonaws.com/deep-health-check-status: Failed Der Knoten hat die gründlichen Integritätsprüfungen oder die Prüfungen des Health Monitoring Agents nicht bestanden und muss neu gestartet oder ausgetauscht werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. SageMaker HyperPod

Bezeichnungen für Art und Ursache des Fehlers

Im Folgenden werden die fault-reason Bezeichnungen fault-type und beschrieben.

  • fault-typeBeschriftungen stehen für allgemeine Fehlerkategorien, wenn Integritätsprüfungen fehlschlagen. Diese werden für Fehler aufgefüllt, die sowohl bei gründlichen Integritätsprüfungen als auch bei der Integritätsüberwachung der Agenten festgestellt wurden.

  • fault-reasonBeschriftungen stellen den detaillierten Fehlergrund dar, der mit einem verknüpft ist. fault-type

Wie SageMaker HyperPod Beschriftungen

In den folgenden Themen wird beschrieben, wie die Etikettierung je nach Fall erfolgt.

Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für die Deep-Health-Überprüfung deaktiviert ist

Wenn ein neuer Knoten zum Cluster hinzugefügt wird und wenn der Deep Health Check für die Instanzgruppe nicht aktiviert ist, SageMaker HyperPod werden dieselben Integritätsprüfungen durchgeführt wie die derzeit verfügbaren SageMaker HyperPod Integritätsprüfungen für Slurm-Cluster.

Wenn die Zustandsprüfung erfolgreich ist, werden die Knoten mit der folgenden Bezeichnung gekennzeichnet.

sagemaker.amazonaws.com/node-health-status: Schedulable

Wenn die Zustandsprüfung nicht bestanden wird, werden die Knoten beendet und ersetzt. Dieses Verhalten entspricht der Funktionsweise der Integritätsprüfung für Slurm-Cluster. SageMaker HyperPod

Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für den Deep Health Check aktiviert ist

Wenn ein neuer Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird und der Deep Health Check-Test für die Instanzgruppe aktiviert ist, wird HyperPod zuerst der Knoten verunreinigt und der ~2-stündige Deep Health Check/Stresstest auf dem Knoten gestartet. Es gibt 3 mögliche Ausgaben der Node-Labels nach dem Deep Health Check.

  1. Wenn der Deep-Health-Check-Test erfolgreich ist

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Wenn der Deep Health Check-Test fehlschlägt und die Instanz ersetzt werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Wenn der Deep Health Check-Test fehlschlägt und die Instance neu gestartet werden muss, um den Deep Health Check erneut auszuführen

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Wenn eine Instance den Deep Health Check-Test nicht besteht, wird die Instanz immer ersetzt. Wenn der Deep Health Check-Test erfolgreich ist, wird der Makel auf dem Knoten entfernt.

Wenn es Rechenausfälle auf den Knoten gibt

Der SageMaker HyperPod Health Monitor-Agent überwacht außerdem kontinuierlich den Integritätsstatus jedes Knotens. Wenn er Fehler erkennt (z. B. GPU Fehler und Treiberabsturz), kennzeichnet der Agent den Knoten mit einer der folgenden Bezeichnungen.

  1. Wenn der Knoten fehlerhaft ist und ersetzt werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Wenn der Knoten fehlerhaft ist und neu gestartet werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Der Health Monitor-Agent verfälscht den Knoten auch, wenn er Probleme mit dem Zustand des Knotens feststellt.