受管 Spot 訓練生命週期 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

受管 Spot 訓練生命週期

您可以使用 DescribeTrainingJob 傳回的 TrainingJobStatusSecondaryStatus 來監控訓練任務。以下清單顯示 TrainingJobStatusSecondaryStatus 值如何變更,視訓練案例而定:

  • 在訓練期間於不中斷情況下取得的 Spot 執行個體

    1. InProgress: StartingDownloadingTrainingUploading

  • Spot 執行個體中斷一次。之後,取得足夠的 Spot 執行個體來完成訓練任務。

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Spot 執行個體中斷兩次且超過 MaxWaitTimeInSeconds

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Spot 執行個體從未啟動。

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded