

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Managed Spot Training in Amazon SageMaker AI verwenden
<a name="model-managed-spot-training"></a>

Amazon SageMaker AI vereinfacht das Trainieren von Machine-Learning-Modellen mithilfe von verwalteten Amazon EC2 Spot Instances. Mithilfe von Managed Spot Training können die Kosten für das Training von Modellen über On-Demand-Instances um bis zu 90 % optimiert werden. SageMaker AI verwaltet die Spot-Unterbrechungen in Ihrem Namen. 

Managed Spot Training verwendet Amazon-EC2-Spot Instance zum Ausführen von Trainingsaufträgen anstelle von On-Demand-Instances. Sie können angeben, für welche Trainingsjobs Spot Instances verwendet werden, und eine Stoppbedingung festlegen, die angibt, wie lange SageMaker AI wartet, bis ein Auftrag mit Amazon EC2 Spot Instances ausgeführt wird. Metriken und Protokolle, die während Trainingsläufen generiert wurden, sind in CloudWatch verfügbar. 

Die automatische Modelloptimierung von Amazon SageMaker AI, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter [Automatische Modelloptimierung mit KI SageMaker](automatic-model-tuning.md).

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsauftrag so konfigurieren, dass er Checkpoints verwendet. SageMaker AI kopiert Checkpoint-Daten aus einem lokalen Pfad in Amazon S3. Wenn der Auftrag neu gestartet wird, kopiert SageMaker AI die Daten von Amazon S3 zurück in den lokalen Pfad. Das Training kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter [Checkpoints in Amazon AI SageMaker](model-checkpoints.md).

**Anmerkung**  
Sofern Ihr Trainingsauftrag nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Prüfpunkte mit Managed Spot Training zu verwenden. Integrierte SageMaker-AI-Algorithmen und Marketplace-Algorithmen, die keine Prüfpunkte haben, sind derzeit auf eine `MaxWaitTimeInSeconds` von 3.600 Sekunden (60 Minuten) begrenzt. 

Um Managed Spot Training zu verwenden, erstellen Sie einen Trainingsauftrag. Legen Sie `EnableManagedSpotTraining` auf `True` fest und geben Sie einen Wert für `MaxWaitTimeInSeconds` an. `MaxWaitTimeInSeconds` muss größer sein als `MaxRuntimeInSeconds`. Weitere Informationen zum Erstellen eines Trainingsauftrags finden Sie unter [DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html). 

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel `(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100` berechnen. Wenn beispielsweise `BillableTimeInSeconds` 100 ist und `TrainingTimeInSeconds` 500 ist, bedeutet dies, dass Ihr Trainingsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 – (100 / 500)) \* 100 = 80%.

In den folgenden Beispiel-Notebooks erfahren Sie, wie Trainingsjobs auf Spot Instances von Amazon SageMaker AI ausgeführt werden und wie verwaltete Spot-Training funktioniert und die abrechnungsfähige Zeit reduziert:
+ [Verwaltete Spot-Training mit TensorFlow](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/managed_spot_training_tensorflow_estimator/managed_spot_training_tensorflow_estimator.html)
+ [Managed Spot Training mit PyTorch](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training/blob/main/pytorch_managed_spot_training_checkpointing/pytorch_managed_spot_training_checkpointing.ipynb)
+ [Verwaltete Spot-Training mit XGBoost](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_managed_spot_training.html)
+ [Verwaltete Spot-Training mit MXNet](https://github.com/aws/amazon-sagemaker-examples-community/blob/215215eb25b40eadaf126d055dbb718a245d7603/training/sagemaker-debugger/mxnet-spot-training-with-sagemakerdebugger.ipynb#L41)
+ [Beispiele für verwaltetes Spot-Training mit Amazon SageMaker AI – GitHub-Repository](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training)