Réparations de clusters en cas d'GPUerreurs

Si vous exécutez une tâche de formation qui échoue sur unGPU, vous SageMaker effectuerez un GPU bilan de santé pour déterminer si l'échec est lié à un GPU problème. SageMaker prend les mesures suivantes en fonction des résultats du bilan de santé :

Si l'erreur est récupérable et peut être corrigée en redémarrant l'instance ou en la réinitialisantGPU, SageMaker elle redémarrera l'instance.
Si l'erreur n'est pas récupérable et qu'elle est causée par une GPU instance qui doit être remplacée, l'instance SageMaker sera remplacée.

L'instance est remplacée ou redémarrée dans le cadre d'un processus de réparation du SageMaker cluster. Au cours de ce processus, le message suivant s'affichera dans le statut de votre poste de formation :

Repairing training cluster due to hardware failure

SageMaker tentera de réparer le cluster 10 plusieurs fois. Si la réparation du cluster est réussie, la tâche de formation SageMaker redémarrera automatiquement à partir du point de contrôle précédent. Si la réparation du cluster échoue, la tâche de formation échouera également. Le processus de réparation du cluster ne vous est pas facturé. Les réparations de clusters ne débuteront que si votre formation échoue. Si un GPU problème est détecté pour un cluster Warmpool, celui-ci passe en mode réparation pour redémarrer ou remplacer l'instance défectueuse. Après réparation, le cluster peut toujours être utilisé comme cluster Warmpool.

Le processus de réparation des clusters et des instances décrit précédemment est illustré dans le schéma suivant :

The cluster and instance repair process.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Reprendre l'entraînement depuis un poste de contrôle

Déploiement de modèles pour l'inférence