El clúster repara GPU errores - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

El clúster repara GPU errores

Si estás realizando un trabajo de formación que no funciona correctamenteGPU, SageMaker realizará un chequeo de GPU estado para comprobar si el fallo está relacionado con algún GPU problema. SageMaker realiza las siguientes acciones en función de los resultados del control de estado:

  • Si el error es recuperable y se puede corregir reiniciando la instancia o restableciéndolaGPU, SageMaker reiniciará la instancia.

  • Si el error no se puede recuperar y se debe a GPU que es necesario reemplazar, se sustituirá la instancia. SageMaker

La instancia se reemplaza o se reinicia como parte de un SageMaker proceso de reparación del clúster. Durante este proceso, verá el siguiente mensaje en el estado de su trabajo de formación:

Repairing training cluster due to hardware failure

SageMaker intentará reparar el clúster 10 varias veces. Si la reparación del clúster se realiza correctamente, SageMaker se reiniciará automáticamente el trabajo de entrenamiento desde el punto de control anterior. Si se produce un error en la reparación del clúster, también se producirá un error en el trabajo de formación. No se le facturará el proceso de reparación del clúster. Las reparaciones de los clústeres no se iniciarán a menos que su trabajo de formación falle. Si se detecta un GPU problema en un clúster de Warmpool, el clúster entrará en modo de reparación para reiniciar o reemplazar la instancia defectuosa. Tras la reparación, el clúster podrá seguir utilizándose como clúster de piscina caliente.

El proceso de reparación de clústeres e instancias descrito anteriormente se muestra en el siguiente diagrama:

The cluster and instance repair process.