Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Points de contrôle sur Amazon SageMaker
Utilisez les points de contrôle sur Amazon SageMaker pour enregistrer l'état des modèles de machine learning (ML) pendant la formation. Les points de contrôle sont des instantanés du modèle et peuvent être configurés par les fonctions de rappel de cadres ML. Vous pouvez utiliser les points de contrôle enregistrés pour redémarrer une tâche d'entraînement à partir du dernier point de contrôle enregistré.
À l'aide des points de contrôle, vous pouvez exécuter les actions suivantes :
-
Enregistrer vos instantanés de modèle en cours d'entraînement en cas d'interruption inattendue de la tâche ou de l'instance d'entraînement.
-
Reprendre l'entraînement du modèle à l'avenir à partir d'un point de contrôle.
-
Analyser le modèle aux étapes intermédiaires de l'entraînement.
-
Utilisez les points de contrôle avec S3 Express One Zone pour augmenter les vitesses d'accès.
-
Utilisez les points de contrôle avec une formation ponctuelle SageMaker gérée pour économiser sur les coûts de formation.
Le mécanisme de SageMaker formation utilise des conteneurs de formation sur EC2 les instances Amazon, et les fichiers de points de contrôle sont enregistrés dans un répertoire local des conteneurs (la valeur par défaut est/opt/ml/checkpoints
). SageMaker fournit la fonctionnalité permettant de copier les points de contrôle depuis le chemin local vers Amazon S3 et de synchroniser automatiquement les points de contrôle de ce répertoire avec S3. Les points de contrôle existants dans S3 sont écrits dans le SageMaker conteneur au début de la tâche, ce qui permet aux tâches de reprendre à partir d'un point de contrôle. Les points de contrôle ajoutés au dossier S3 après le début de la tâche ne sont pas copiés dans le conteneur de formation. SageMaker écrit également de nouveaux points de contrôle du conteneur vers S3 pendant l'entraînement. Si un point de contrôle est supprimé dans le SageMaker conteneur, il sera également supprimé dans le dossier S3.
Vous pouvez utiliser les points de contrôle sur Amazon SageMaker avec la classe de stockage Amazon S3 Express One Zone (S3 Express One Zone) pour accéder plus rapidement aux points de contrôle. Lorsque vous activez le point de contrôle et que vous spécifiez le S3 URI pour votre destination de stockage de point de contrôle, vous pouvez fournir un S3 URI pour un dossier dans un compartiment S3 à usage général ou un compartiment de répertoire S3. Les compartiments d'annuaire S3 intégrés ne SageMaker peuvent être chiffrés que par chiffrement côté serveur avec des clés gérées par Amazon S3 (SSE-S3). Le chiffrement côté serveur à l'aide de AWS KMS clés (SSE-KMS) n'est actuellement pas pris en charge. Pour plus d'informations sur S3 Express One Zone et les compartiments de répertoire S3, consultez Qu'est-ce que S3 Express One Zone ?
Si vous utilisez des points de contrôle avec une formation ponctuelle SageMaker gérée, SageMaker gère le point de contrôle de votre modèle d'entraînement sur une instance ponctuelle et la reprise de la tâche de formation sur l'instance ponctuelle suivante. Grâce SageMaker à l'entraînement ponctuel géré, vous pouvez réduire considérablement le temps facturable consacré à la formation des modèles de machine learning. Pour de plus amples informations, veuillez consulter Formation ponctuelle gérée sur Amazon SageMaker.
Rubriques
Points de contrôle pour les frameworks et les algorithmes dans SageMaker
Utilisez les points de contrôle pour enregistrer des instantanés des modèles de machine learning créés à partir de vos frameworks préférés. SageMaker
SageMaker cadres et algorithmes qui prennent en charge le point de contrôle
SageMaker prend en charge le point de contrôle pour les AWS Deep Learning Containers et un sous-ensemble d'algorithmes intégrés sans qu'il soit nécessaire de modifier les scripts d'entraînement. SageMaker enregistre les points de contrôle sur le chemin local par défaut '/opt/ml/checkpoints'
et les copie sur Amazon S3.
-
Deep Learning Containers : TensorFlowPyTorch
, MXNet , et HuggingFace Note
Si vous utilisez l'estimateur du HuggingFace framework, vous devez spécifier un chemin de sortie de point de contrôle via des hyperparamètres. Pour plus d'informations, consultez la section Exécuter une formation sur Amazon SageMaker
dans la HuggingFacedocumentation. -
Algorithmes intégrés : classification d'images, détection d'objets, segmentation sémantique et XGBoost(0.90-1 ou version ultérieure)
Note
Si vous utilisez l'XGBoostalgorithme en mode framework (mode script), vous devez vous munir d'un script d'XGBoostentraînement avec point de contrôle configuré manuellement. Pour plus d'informations sur les méthodes d'XGBoostapprentissage permettant d'enregistrer des instantanés de modèles, consultez la section Entraînement XGBoost
dans la SDK documentation XGBoost Python.
Si un algorithme prédéfini qui ne prend pas en charge le point de contrôle est utilisé dans le cadre d'une tâche de formation ponctuelle gérée, SageMaker il n'autorise pas un temps d'attente maximal supérieur à une heure pour le travail afin de limiter le temps de formation perdu en raison des interruptions.
Pour les conteneurs d'entraînement personnalisés et autres cadres
Si vous utilisez vos propres conteneurs d'entraînement, scripts d'entraînement ou autres frameworks non répertoriés dans la section précédente, vous devez configurer correctement votre script d'entraînement à l'aide de rappels ou d'un entraînement APIs pour enregistrer des points de contrôle dans le chemin local ('/opt/ml/checkpoints'
) et le charger à partir du chemin local dans votre script d'entraînement. SageMaker les estimateurs peuvent se synchroniser avec le chemin local et enregistrer les points de contrôle sur Amazon S3.
Considérations relatives au point de contrôle
Tenez compte des points suivants lorsque vous utilisez des points de contrôle dans. SageMaker
-
Pour éviter les écrasements dans l'entraînement distribué à plusieurs instances, vous devez configurer manuellement les noms et les chemins d'accès des fichiers de points de contrôle dans votre script d'entraînement. La configuration de haut niveau des SageMaker points de contrôle spécifie un seul emplacement Amazon S3 sans suffixes ni préfixes supplémentaires pour baliser les points de contrôle provenant de plusieurs instances.
-
Le SageMaker Python SDK ne prend pas en charge la configuration de haut niveau pour la fréquence des points de contrôle. Pour contrôler la fréquence de création de points de reprise, modifiez votre script d'entraînement à l'aide des fonctions d'enregistrement du modèle du cadre ou des rappels de points de contrôle.
-
Si vous utilisez des SageMaker points de contrôle avec SageMaker Debugger et SageMaker distribuez et que vous rencontrez des problèmes, consultez les pages suivantes pour connaître les problèmes et les considérations à prendre en compte.