Configuración de una política de reintentos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de una política de reintentos

Si bien SageMaker los pipelines proporcionan una forma sólida y automatizada de organizar los flujos de trabajo de aprendizaje automático, es posible que se produzcan errores al ejecutarlos. Para gestionar estos escenarios sin problemas y mejorar la fiabilidad de sus canalizaciones, puede configurar políticas de reintentos que definan cómo y cuándo reintentar automáticamente pasos específicos tras producirse una excepción. La política de reintentos le permite especificar los tipos de excepciones que se van a reintentar, el número máximo de reintentos, el intervalo entre reintentos y la tasa de regresión para aumentar los intervalos de reintentos. En la siguiente sección, se proporcionan ejemplos de cómo configurar una política de reintentos para un paso de formación de tu proceso, JSON tanto en SageMaker Python SDK como con él.

A continuación se muestra un ejemplo de un paso de entrenamiento con una política de reintentos.

{ "Steps": [ { "Name": "MyTrainingStep", "Type": "Training", "RetryPolicies": [ { "ExceptionType": [ "SageMaker.JOB_INTERNAL_ERROR", "SageMaker.CAPACITY_ERROR" ], "IntervalSeconds": 1, "BackoffRate": 2, "MaxAttempts": 5 } ] } ] }

El siguiente es un ejemplo de cómo crear una TrainingStep entrada SDK para Python (Boto3) con una política de reintentos.

from sagemaker.workflow.retry import ( StepRetryPolicy, StepExceptionTypeEnum, SageMakerJobExceptionTypeEnum, SageMakerJobStepRetryPolicy ) step_train = TrainingStep( name="MyTrainingStep", xxx, retry_policies=[ // override the default StepRetryPolicy( exception_types=[ StepExceptionTypeEnum.SERVICE_FAULT, StepExceptionTypeEnum.THROTTLING ], expire_after_mins=5, interval_seconds=10, backoff_rate=2.0 ), // retry when resource limit quota gets exceeded SageMakerJobStepRetryPolicy( exception_types=[SageMakerJobExceptionTypeEnum.RESOURCE_LIMIT], expire_after_mins=120, interval_seconds=60, backoff_rate=2.0 ), // retry when job failed due to transient error or EC2 ICE. SageMakerJobStepRetryPolicy( failure_reason_types=[ SageMakerJobExceptionTypeEnum.INTERNAL_ERROR, SageMakerJobExceptionTypeEnum.CAPACITY_ERROR, ], max_attempts=10, interval_seconds=30, backoff_rate=2.0 ) ] )

Para obtener más información sobre cómo configurar el comportamiento de reintento para determinados tipos de pasos, consulte Amazon SageMaker Pipelines: Política de reintentos en la documentación de Amazon Python SageMaker . SDK