Amazon 中的受管 Spot 訓練 SageMaker - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 中的受管 Spot 訓練 SageMaker

Amazon SageMaker 可讓您使用受管 Amazon EC2 Spot 執行個體輕鬆訓練機器學習模型。相較於隨需執行個體,受管 Spot 訓練可以最佳化訓練模型成本高達 90%。 SageMaker 代表您管理 Spot 中斷。

Managed Spot Training 使用 Amazon EC2 Spot 執行個體執行訓練任務,而非隨需執行個體。您可以指定哪些訓練任務使用 Spot 執行個體,以及指定使用 Amazon EC2 Spot 執行個體執行任務的 SageMaker 等待時間的停止條件。訓練執行期間產生的指標和日誌可在 中使用 CloudWatch。

Amazon SageMaker 自動模型調校也稱為超參數調校,可以使用受管 Spot 訓練。如需自動模型調校的詳細資訊,請參閱使用 自動模型調校 SageMaker

Spot 執行個體可能會中斷,造成任務需要更長的時間來開始或完成。您可以設定受管現場訓練任務,以使用 checkpoints. SageMaker copies 檢查點資料,從本機路徑到 Amazon S3。重新啟動任務時, 會將 Amazon S3 中的資料 SageMaker 複製回本機路徑。然後,訓練任務可以從最後一個檢查點繼續,而不是重新啟動。如需檢查點作業的詳細資訊,請參閱Amazon 中的檢查點 SageMaker

注意

除非您的訓練任務即將快速完成,否則我們建議您使用檢查點與受管現場訓練。 SageMaker 內建演算法和非檢查點的市場演算法目前限制為 3600 秒 MaxWaitTimeInSeconds (60 分鐘)。

若要使用受管 Spot 訓練,請建立訓練任務。將 EnableManagedSpotTraining 設定為 True,並指定 MaxWaitTimeInSecondsMaxWaitTimeInSeconds 必須大於 MaxRuntimeInSeconds。如需建立訓練任務的詳細資訊,請參閱 DescribeTrainingJob

您可以使用公式 (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100,計算使用受管 Spot 訓練可以節省多少。例如,如果 BillableTimeInSeconds 為 100 且 TrainingTimeInSeconds 為 500,則表示您的訓練任務執行了 500 秒,但您只需支付 100 秒的費用。您節省了 (1 - (100 / 500)) * 100 = 80%。

若要了解如何在 Amazon SageMaker Spot 執行個體上執行訓練任務,以及受管 Spot 訓練如何運作並縮短計費時間,請參閱下列範例筆記本: