Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisez Managed Spot Training sur Amazon SageMaker
Amazon SageMaker facilite la formation de modèles d'apprentissage automatique à l'aide d'instances Amazon EC2 Spot gérées. L'entraînement d'instances Spot gérées peut optimiser le coût d'entraînement des modèles jusqu'à 90 % par rapport aux instances à la demande. SageMaker gère les interruptions de Spot en votre nom.
L'entraînement d'instances Spot gérées utilise une instance Spot Amazon EC2 pour exécuter des tâches d'entraînement au lieu d'instances à la demande. Vous pouvez spécifier les tâches de formation qui utilisent des instances ponctuelles et une condition d'arrêt qui indique le temps d' SageMaker attente pour qu'une tâche s'exécute à l'aide d'instances ponctuelles Amazon EC2. Les métriques et les journaux générés lors des entraînements sont disponibles dans CloudWatch.
Le réglage SageMaker automatique des modèles Amazon, également connu sous le nom de réglage des hyperparamètres, peut utiliser un entraînement ponctuel géré. Pour plus d'informations sur le réglage automatique de modèle, consultez Effectuez le réglage automatique du modèle avec SageMaker.
Les instances Spot peuvent être interrompues, suite à quoi les tâches mettent plus de temps à démarrer ou à se terminer. Vous pouvez configurer votre tâche de formation ponctuelle gérée pour utiliser des points de contrôle. SageMaker copie les données des points de contrôle depuis un chemin local vers Amazon S3. Lorsque la tâche est redémarrée, SageMaker copie les données d'Amazon S3 dans le chemin local. La tâche d'entraînement peut ensuite reprendre à partir du dernier point de contrôle au lieu de redémarrer depuis le début. Pour en savoir plus sur les points de contrôle, consultez Utiliser les points de contrôle sur Amazon SageMaker.
Note
À moins que votre stage de formation ne soit terminé rapidement, nous vous recommandons d'utiliser le point de contrôle avec une formation ponctuelle gérée. SageMaker les algorithmes intégrés et les algorithmes du marché qui ne sont pas des points MaxWaitTimeInSeconds
de contrôle sont actuellement limités à 3 600 secondes (60 minutes).
Utilisation de l'entraînement Spot géré
Pour utiliser l'entraînement Spot géré, créez une tâche d'entraînement. Définissez EnableManagedSpotTraining
sur True
et spécifiez MaxWaitTimeInSeconds
. MaxWaitTimeInSeconds
doit être supérieur à MaxRuntimeInSeconds
. Pour de plus amples informations sur la création d'une tâche de formation, veuillez consulter DescribeTrainingJob.
Vous pouvez calculer les économies générées par l'utilisation de l'entraînement Spot géré à l'aide de la formule (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
. Par exemple, si la valeur BillableTimeInSeconds
est égale à 100 et TrainingTimeInSeconds
à 500, cela signifie que votre tâche d'entraînement a duré 500 secondes, mais que vous n'avez été facturé que pour 100 secondes. Vos économies sont de (1 - (100 / 500)) * 100 = 80 %.
Pour savoir comment exécuter des tâches de formation sur des instances Amazon SageMaker Spot et comment fonctionne la formation ponctuelle gérée et réduit le temps facturable, consultez les exemples de carnets de notes suivants :
Cycle de vie de l'entraînement Spot géré
Vous pouvez surveiller une tâche de formation en utilisant les valeurs TrainingJobStatus
et SecondaryStatus
renvoyées par DescribeTrainingJob. La liste ci-dessous montre comment les valeurs TrainingJobStatus
et SecondaryStatus
changent en fonction du scénario d'entraînement :
-
Instances Spot acquises sans interruption pendant l'entraînement
-
InProgress
:Starting
↠Downloading
↠Training
↠Uploading
-
-
Instances Spot interrompues une fois. Par la suite, suffisamment d'instances Spot ont été acquises pour terminer la tâche d'entraînement.
-
InProgress
:Starting
↠Downloading
↠Training
↠Interrupted
↠Starting
↠Downloading
↠Training
↠Uploading
-
-
Instances Spot interrompues deux fois et délai
MaxWaitTimeInSeconds
dépassé.-
InProgress
:Starting
↠Downloading
↠Training
↠Interrupted
↠Starting
↠Downloading
↠Training
↠Interrupted
↠Downloading
↠Training
-
Stopping
:Stopping
-
Stopped
:MaxWaitTimeExceeded
-
-
Les instances Spot n'ont jamais été lancées.
-
InProgress
:Starting
-
Stopping
:Stopping
-
Stopped
:MaxWaitTimeExceeded
-