本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker AI 中的受管 Spot 訓練
Amazon SageMaker AI 可讓您使用受管 Amazon EC2 Spot 執行個體輕鬆訓練機器學習模型。相較於隨需執行個體,受管 Spot 訓練可以最佳化訓練模型成本高達 90%。SageMaker AI 會代表您管理 Spot 中斷。
受管 Spot 訓練會使用 Amazon EC2 Spot 執行個體來執行訓練任務,而不是隨需執行個體。您可以指定哪些訓練任務使用 Spot 執行個體,以及指定 SageMaker AI 使用 Amazon EC2 Spot 執行個體等待任務執行多久的停止條件。可在 CloudWatch 中使用訓練執行期間產生的指標和日誌。
Amazon SageMaker AI 自動模型調校,也稱為超參數調校,可以使用受管 Spot 訓練。如需自動模型調校的詳細資訊,請參閱使用 SageMaker AI 自動調校模型。
Spot 執行個體可能會中斷,造成任務需要更長的時間來開始或完成。您可以設定自己的受管 Spot 訓練任務來使用檢查點。SageMaker AI 會將檢查點資料從本機路徑複製到 Amazon S3。重新啟動任務時,SageMaker AI 會將 Amazon S3 中的資料複製回本機路徑。然後,訓練任務可以從最後一個檢查點繼續,而不是重新啟動。如需檢查點作業的詳細資訊,請參閱Amazon SageMaker AI 中的檢查點。
注意
除非您的訓練任務快速完成,否則建議您搭配受管 Spot 訓練使用檢查點作業。目前,非檢查點的 SageMaker AI 內建演算法和市場演算法限制為 3600 秒 MaxWaitTimeInSeconds
(60 分鐘)。
若要使用受管 Spot 訓練,請建立訓練任務。將 EnableManagedSpotTraining
設定為 True
,並指定 MaxWaitTimeInSeconds
。MaxWaitTimeInSeconds
必須大於 MaxRuntimeInSeconds
。若要取得有關建立訓練任務的更多資訊,請參閱 DescribeTrainingJob。
您可以使用公式 (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
,計算使用受管 Spot 訓練可以節省多少。例如,如果 BillableTimeInSeconds
為 100 且 TrainingTimeInSeconds
為 500,則表示您的訓練任務執行了 500 秒,但您只需支付 100 秒的費用。您節省了 (1 - (100 / 500)) * 100 = 80%。
若要了解如何在 Amazon SageMaker AI Spot 執行個體上執行訓練任務,以及受管 Spot 訓練如何運作並縮短計費時間,請參閱下列範例筆記本: