Cluster-Reparaturen bei GPU-Fehlern

Wenn Sie einen Trainingsjob ausführen, der auf einer GPU fehlschlägt, führt SageMaker AI eine GPU-Zustandsprüfung durch, um festzustellen, ob der Fehler mit einem GPU-Problem zusammenhängt. SageMaker KI ergreift auf der Grundlage der Ergebnisse der Gesundheitsprüfung die folgenden Maßnahmen:

Wenn der Fehler behebbar ist und durch einen Neustart der Instanz oder das Zurücksetzen der GPU behoben werden kann, SageMaker wird AI die Instanz neu starten.
Wenn der Fehler nicht behebbar ist und durch eine GPU verursacht wird, die ersetzt werden muss, ersetzt AI die Instanz. SageMaker

Die Instanz wird im Rahmen eines SageMaker AI-Cluster-Reparaturprozesses entweder ersetzt oder neu gestartet. Während dieses Vorgangs wird in Ihrem Trainingsjobstatus die folgende Meldung angezeigt:

Repairing training cluster due to hardware failure

SageMaker Die KI versucht bis zu 10 mehrmals, den Cluster zu reparieren. Wenn die Clusterreparatur erfolgreich ist, startet SageMaker KI den Trainingsjob automatisch vom vorherigen Checkpoint aus neu. Wenn die Clusterreparatur fehlschlägt, schlägt auch der Trainingsjob fehl. Der Clusterreparaturprozess wird Ihnen nicht in Rechnung gestellt. Clusterreparaturen werden erst eingeleitet, wenn Ihr Schulungsjob fehlschlägt. Wenn bei einem Warmpool-Cluster ein GPU-Problem festgestellt wird, wechselt der Cluster in den Reparaturmodus, um entweder neu zu starten oder die fehlerhafte Instanz zu ersetzen. Nach der Reparatur kann der Cluster weiterhin als Warmpool-Cluster verwendet werden.

Der zuvor beschriebene Prozess zur Reparatur von Clustern und Instanzen ist in der folgenden Abbildung dargestellt:

The cluster and instance repair process.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Setzen Sie das Training von einem Checkpoint aus fort

Modelle für Inference einsetzen