Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod

Fokusmodus
Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Labels sind Schlüssel-Wert-Paare, die an Kubernetes-Objekte angehängt werden. SageMaker HyperPod führt die folgenden Bezeichnungen für die bereitgestellten Zustandsprüfungen ein.

Beschriftungen für den Knotenstatus

Die node-health-status Beschriftungen stellen den Status des Knotenzustands dar und können als Teil des Knotenauswahlfilters in fehlerfreien Knoten verwendet werden.

Label (Bezeichnung) Beschreibung
sagemaker.amazonaws.com/node-health-status: Schedulable Der Knoten hat die grundlegenden Integritätsprüfungen bestanden und ist für die Ausführung von Workloads verfügbar. Diese Zustandsprüfung entspricht den derzeit verfügbaren SageMaker HyperPod Resilienzfunktionen für Slurm-Cluster.
sagemaker.amazonaws.com/node-health-status: Unschedulable Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss ersetzt werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt. SageMaker HyperPod
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Der Knoten hat die gründlichen Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden und muss neu gestartet werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. SageMaker HyperPod

Etiketten für umfassende Gesundheitschecks

Die deep-health-check-status Beschriftungen stellen den Fortschritt der gründlichen Integritätsprüfung auf einem bestimmten Knoten dar. Hilfreich für Kubernetes-Benutzer, um schnell nach dem Fortschritt der allgemeinen Deep Health Checks zu filtern.

Label (Bezeichnung) Beschreibung
sagemaker.amazonaws.com/deep-health-check-status: InProgress Der Knoten führt tiefgreifende Integritätsprüfungen durch und ist nicht für die Ausführung von Workloads verfügbar.
sagemaker.amazonaws.com/deep-health-check-status: Passed Der Knoten hat eingehende Integritätsprüfungen und Agentenprüfungen zur Gesundheitsüberwachung erfolgreich abgeschlossen und ist für die Ausführung von Workloads verfügbar.
sagemaker.amazonaws.com/deep-health-check-status: Failed Der Knoten hat die tiefgreifenden Integritätsprüfungen oder die Prüfungen der Systemüberwachungs-Agenten nicht bestanden und muss neu gestartet oder ausgetauscht werden. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch neu gestartet oder durch ersetzt. SageMaker HyperPod

Bezeichnungen für Art und Ursache des Fehlers

Im Folgenden werden die fault-reason Bezeichnungen fault-type und beschrieben.

  • fault-typeBeschriftungen stehen für allgemeine Fehlerkategorien, wenn Integritätsprüfungen fehlschlagen. Diese werden für Fehler aufgefüllt, die sowohl bei gründlichen Integritätsprüfungen als auch bei der Integritätsüberwachung der Agenten festgestellt wurden.

  • fault-reasonBeschriftungen stellen den detaillierten Fehlergrund dar, der mit einem verknüpft ist. fault-type

Wie SageMaker HyperPod Beschriftungen

In den folgenden Themen wird beschrieben, wie die Kennzeichnung je nach Fall erfolgt.

Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für die Deep-Health-Überprüfung deaktiviert ist

Wenn ein neuer Knoten zum Cluster hinzugefügt wird und wenn der Deep Health Check für die Instanzgruppe nicht aktiviert ist, SageMaker HyperPod werden dieselben Integritätsprüfungen durchgeführt wie die derzeit verfügbaren SageMaker HyperPod Integritätsprüfungen für Slurm-Cluster.

Wenn die Zustandsprüfung erfolgreich ist, werden die Knoten mit der folgenden Bezeichnung gekennzeichnet.

sagemaker.amazonaws.com/node-health-status: Schedulable

Wenn die Zustandsprüfung nicht bestanden wird, werden die Knoten beendet und ersetzt. Dieses Verhalten entspricht der Funktionsweise der Integritätsprüfung für Slurm-Cluster. SageMaker HyperPod

Wenn ein Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird, bei dem die Konfiguration für den Deep Health Check aktiviert ist

Wenn ein neuer Knoten zu einem SageMaker HyperPod Cluster hinzugefügt wird und der Deep Health Check-Test für die Instanzgruppe aktiviert ist, wird HyperPod zuerst der Knoten verunreinigt und der ~2-stündige Deep Health Check/Stresstest auf dem Knoten gestartet. Es gibt 3 mögliche Ausgaben der Node-Labels nach dem Deep Health Check.

  1. Wenn der Deep Health Check-Test bestanden wurde

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Wenn der Deep Health Check-Test fehlschlägt und die Instanz ersetzt werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Wenn der Deep Health Check-Test fehlschlägt und die Instance neu gestartet werden muss, um den Deep Health Check erneut auszuführen

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Wenn eine Instance den Deep Health Check-Test nicht besteht, wird die Instanz immer ersetzt. Wenn der Deep Health Check-Test erfolgreich ist, wird der Makel auf dem Knoten entfernt.

Wenn es Rechenausfälle auf Knoten gibt

Der SageMaker HyperPod Health Monitor-Agent überwacht außerdem kontinuierlich den Integritätsstatus jedes Knotens. Wenn er Fehler erkennt (z. B. GPU-Fehler und Treiberabsturz), kennzeichnet der Agent den Knoten mit einer der folgenden Bezeichnungen.

  1. Wenn der Knoten fehlerhaft ist und ersetzt werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Wenn der Knoten fehlerhaft ist und neu gestartet werden muss

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Der Health Monitor-Agent verfälscht den Knoten auch, wenn er Probleme mit dem Zustand des Knotens feststellt.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.