翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker AI でのマネージドスポットトレーニング
Amazon SageMaker AI を使用すると、マネージド Amazon EC2 スポットインスタンスを使用して機械学習モデルを簡単にトレーニングできます。マネージド型のスポットトレーニングでは、オンデマンドインスタンスと比較して、トレーニングモデルのコストを最大 90% 抑えることができます。 SageMaker AI はユーザーに代わってスポット中断を管理します。
マネージドスポットトレーニングは、オンデマンドインスタンスの代わりに Amazon EC2 スポットインスタンスを使用してトレーニングジョブを実行します。スポットインスタンスを使用するトレーニングジョブと、Amazon Spot インスタンスを使用してジョブの実行を SageMaker AI EC2 が待機する時間を指定する停止条件を指定できます。トレーニングの実行中に生成されたメトリクスとログは、 で入手できます CloudWatch。
ハイパーパラメータ調整とも呼ばれる Amazon SageMaker AI 自動モデル調整では、マネージドスポットトレーニングを使用できます。自動モデルチューニングの詳細については、「 SageMaker AI による自動モデル調整」を参照してください。
スポットインスタンスは中断されることがあります。その場合、ジョブの開始または終了に時間がかかる場合があります。チェックポイントを使用するようにマネージドスポットトレーニングジョブを設定できます。 SageMaker AI はチェックポイントデータをローカルパスから Amazon S3 にコピーします。ジョブが再起動されると、 SageMaker AI は Amazon S3 からローカルパスにデータをコピーします。その結果、トレーニングジョブは最初からではなく、最後のチェックポイントから再開できます。チェックポイントの詳細については、Amazon SageMaker AI のチェックポイントを参照してください。
注記
トレーニングジョブがすぐに完了しない限り、マネージドスポットトレーニングでチェックポイントを使用することをお勧めします。チェックポイントを使用しない SageMaker AI 組み込みアルゴリズムとマーケットプレイスアルゴリズムは現在、3600 秒 (60 分) MaxWaitTimeInSeconds
の に制限されています。
マネージド型スポットトレーニングを使用するには、トレーニングジョブを作成します。EnableManagedSpotTraining
を True
に設定し、MaxWaitTimeInSeconds
を指定します。MaxWaitTimeInSeconds
は、MaxRuntimeInSeconds
より大きい値にする必要があります。トレーニングジョブの作成の詳細については、「DescribeTrainingJob」を参照してください。
削減率を計算するには、式 (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
を使用して、マネージド型スポットトレーニングを使用します。例えば、BillableTimeInSeconds
が 100 で TrainingTimeInSeconds
が 500 の場合、トレーニングジョブは 500 秒間実行されたが、請求されたのは 100 秒だけであることを意味します。節約できたのは、(1 - (100/500)) * 100 = 80% です。
Amazon SageMaker AI スポットインスタンスでトレーニングジョブを実行する方法と、マネージドスポットトレーニングの仕組みと請求対象時間を短縮する方法については、次のノートブックの例を参照してください。