Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Konfigurieren einer Wiederholungsversuchsrichtlinie
SageMaker Pipelines bieten zwar eine robuste und automatisierte Methode zur Orchestrierung von Workflows für maschinelles Lernen, bei ihrer Ausführung können jedoch Fehler auftreten. Um solche Szenarien ordnungsgemäß zu handhaben und die Zuverlässigkeit Ihrer Pipelines zu verbessern, können Sie Wiederholungsrichtlinien konfigurieren, die definieren, wie und wann bestimmte Schritte nach dem Auftreten einer Ausnahme automatisch wiederholt werden sollen. Mit der Wiederholungsrichtlinie können Sie die Arten von Ausnahmen, die wiederholt werden sollen, die maximale Anzahl von Wiederholungsversuchen, das Intervall zwischen Wiederholungsversuchen und die Backoff-Rate für die Verlängerung der Wiederholungsintervalle angeben. Der folgende Abschnitt enthält Beispiele für die Konfiguration einer Wiederholungsrichtlinie für einen Trainingsschritt in Ihrer Pipeline, JSON sowohl in Python als auch unter Verwendung von SageMaker PythonSDK.
Nachstehend finden Sie ein Beispiel für einen Trainingsschritt mit einer Wiederholungsrichtlinie.
{ "Steps": [ { "Name": "
MyTrainingStep
", "Type": "Training", "RetryPolicies": [ { "ExceptionType": [ "SageMaker.JOB_INTERNAL_ERROR
", "SageMaker.CAPACITY_ERROR
" ], "IntervalSeconds":1
, "BackoffRate":2
, "MaxAttempts":5
} ] } ] }
Im Folgenden finden Sie ein Beispiel dafür, wie Sie ein TrainingStep
In SDK für Python (Boto3) mit einer Wiederholungsrichtlinie erstellen.
from sagemaker.workflow.retry import ( StepRetryPolicy, StepExceptionTypeEnum, SageMakerJobExceptionTypeEnum, SageMakerJobStepRetryPolicy ) step_train = TrainingStep( name="
MyTrainingStep
", xxx, retry_policies=[ // override the default StepRetryPolicy( exception_types=[StepExceptionTypeEnum.SERVICE_FAULT
,StepExceptionTypeEnum.THROTTLING
], expire_after_mins=5
, interval_seconds=10
, backoff_rate=2.0
), // retry when resource limit quota gets exceeded SageMakerJobStepRetryPolicy( exception_types=[SageMakerJobExceptionTypeEnum.RESOURCE_LIMIT
], expire_after_mins=120
, interval_seconds=60
, backoff_rate=2.0
), // retry when job failed due to transient error or EC2 ICE. SageMakerJobStepRetryPolicy( failure_reason_types=[SageMakerJobExceptionTypeEnum.INTERNAL_ERROR
,SageMakerJobExceptionTypeEnum.CAPACITY_ERROR
, ], max_attempts=10
, interval_seconds=30
, backoff_rate=2.0
) ] )
Weitere Informationen zur Konfiguration des Wiederholungsverhaltens für bestimmte Schritttypen finden Sie unter Amazon SageMaker Pipelines — Retry Policy