トレーニングジョブを早期停止する

目標メトリクスで測定して、ハイパーパラメータ調整ジョブが大幅に改善されていない場合は、ハイパーパラメータ調整ジョブが開始したトレーニングジョブを早期に停止します。トレーニングジョブを早期停止すると、計算時間が短縮され、モデルの過剰な作成を防ぐことができます。トレーニングパラメータを早期に停止するようにハイパーパラメータ調整ジョブを構成するには、次のいずれかを実行します。

for Python (Boto3) を使用している場合は AWS SDK、調整ジョブの設定に使用する HyperParameterTuningJobConfig オブジェクトの TrainingJobEarlyStoppingTypeフィールドをに設定しますAUTO。
Amazon Python SageMaker を使用している場合はSDK、 HyperParameterTuner オブジェクトの early_stopping_typeパラメータをに設定しますAuto。
Amazon SageMaker AI コンソールのハイパーパラメータ調整ジョブの作成ワークフローの早期停止で、自動を選択します。

早期停止の使用方法を示すサンプルノートブックについては、https://github.com/awslabs/amazon-sagemaker-examples「/blob/master/hyperparameter_tuning/image_classification_early_stopping/hpo_image_classification_early_stopping.ipynb」を参照するか、hpo_image_classification_early_stopping.ipynbノートブックインスタンスの SageMaker AI の例のハイパーパラメータチューニングセクションでノートブックを開きます。ノートブックインスタンスでのサンプルノートブックの使用方法については、「サンプルノートブックにアクセスする」を参照してください。

早期停止の仕組み

ハイパーパラメータ調整ジョブの早期停止を有効にすると、 SageMaker AI はハイパーパラメータ調整ジョブが起動する各トレーニングジョブを次のように評価します。

トレーニングの各エポックの後で、目標メトリクスの値を取得します。
同じエポックまでの過去のすべてのトレーニングジョブについて目標メトリクスの移動平均を計算してから、すべての移動平均の中央値を計算します。
現在のトレーニングジョブの目標メトリクスの値が、同じエポックまでの以前のトレーニングジョブの目標メトリクスの実行平均の中央値よりも悪い場合 (目標メトリクスを最小化する場合は高い値、最大化する場合は低い値）、 SageMaker AI は現在のトレーニングジョブを停止します。

早期停止をサポートするアルゴリズム

早期停止をサポートするために、アルゴリズムは各エポックについて目標メトリクスを発行する必要があります。次の組み込み SageMaker AI アルゴリズムは早期停止をサポートしています。

ライトGBM
CatBoost
AutoGluon-タブラー
TabTransformer
線形学習アルゴリズム - 目標メトリクスとして objective_loss を使っている場合にのみサポートされます。
XGBoost Amazon SageMaker AI によるアルゴリズム
イメージ分類 - MXNet
オブジェクト検出 - MXNet
Sequence-to-Sequence アルゴリズム
IP Insights

注記

早期停止をサポートするこの組み込みアルゴリズムのリストは、2018 年 12 月 13 日現在のものです。他の組み込みアルゴリズムは、今後、早期停止をサポートする可能性があります。アルゴリズムが、ハイパーパラメータ調整ジョブの目標メトリクスとして使用できるメトリクス (可能であれば検証メトリクス) を発行する場合は、早期停止をサポートします。

独自のアルゴリズムで早期停止を使用するには、各エポックの後に目標メトリクスの値を発行するようにアルゴリズムを記述する必要があります。次のリストは、さまざまなフレームワークでこれを実行する方法を示しています。

TensorFlow: tf.keras.callbacks.ProgbarLogger クラスを使用します。詳細については、tf.keras.callbacks を参照してくださいProgbarLogger API。
MXNet: mxnet.callback.LogValidationMetricsCallback を使用します。詳細については、mxnet.callback APIsを参照してください。
Chainer: extensions.Evaluator クラスを使用して Chainer を拡張します。詳細については、chainer.training.extensions.Evaluator APIを参照してください。
PyTorch および Spark: 高レベルのサポートはありません。目標メトリクスを計算し、各エポックの後でそれらをログに書き込むように、明示的にトレーニングコードを記述する必要があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

クリーンアップ

ウォームスタートのハイパーパラメータ調整ジョブを実行する