AutoGluon-タブ型ハイパーパラメータ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AutoGluon-タブ型ハイパーパラメータ

次の表は、Amazon SageMaker AutoGluon-Tabular アルゴリズムに必要または最も一般的に使用されるハイパーパラメータのサブセットを示しています。ユーザーは、データからモデルパラメータを推定しやすくするために、これらのパラメータを設定します。 AutoGluon-Tabular SageMakerアルゴリズムは、オープンソースの AutoGluon-Tabular パッケージの実装です。

注記

デフォルトのハイパーパラメータは、AutoGluon-タブ形式のサンプルノートブック のサンプルデータセットに基づいています。

デフォルトでは、 SageMaker AutoGluon-タブラーアルゴリズムは分類問題のタイプに基づいて評価メトリクスを自動的に選択します。このアルゴリズムは、データ内のラベル数に基づいて分類問題のタイプを検出します。回帰問題の場合、評価メトリクスは二乗平均平方根誤差です。二項分類の問題の場合、評価メトリクスは受信者動作特性曲線 () の下の領域ですAUC。多クラス分類問題の場合、評価メトリクスは精度です。eval_metric ハイパーパラメータを使用して、デフォルトの評価メトリクスを変更できます。説明、有効な値、デフォルト値など、 AutoGluon-タブラーハイパーパラメータの詳細については、次の表を参照してください。

Parameter Name 説明
eval_metric

検証データの評価メトリクス。eval_metric がデフォルトの "auto" 値に設定されている場合、アルゴリズムは分類問題のタイプに基づいて自動的に評価メトリクスを選択します。

  • リグレッションの場合は、"root_mean_squared_error"

  • 二項分類の場合は、"roc_auc"

  • 多クラス分類の場合は、"accuracy"

有効な値: 文字列。有効な値についてはAutoGluon ドキュメントを参照してください。

デフォルト値: "auto"

presets

fit() 内のさまざまな引数のプリセット設定のリスト。

  • "best_quality": 予測精度が高く、推論時間が遅く、ディスク使用量が多い

  • "high_quality": 高い予測精度と高速推論

  • "good_quality": 優れた予測精度と非常に高速な推論

  • "medium_quality": 中程度の予測精度、非常に高速な推論とトレーニング時間

  • "optimize_for_deployment": 未使用のモデルとトレーニングアーティファクトの削除

  • "interpretable": imodels パッケージの解釈可能なルールベースモデルのみに適合

詳細については、「予測AutoGluon 子」を参照してください。

有効な値: 文字列、("best_quality""high_quality"good_quality""medium_quality""optimize_for_deployment" or "interpretable") のいずれか。

デフォルト値: "medium_quality"

auto_stack

AutoGluon がバギングと多層スタックアンサンブルを自動的に使用して予測精度を高めるかどうか。予測精度を最大化するために、トレーニング時間が長くなっても構わない場合は、auto_stack"True" に設定してください。これにより、データセットのプロパティに基づいて num_bag_foldsnum_stack_levels 引数が自動的に設定されます。

有効な値: 文字列、"True" または "False"

デフォルト値: "False"

num_bag_folds

モデルのバギングに使用されるフォールド数。num_bag_foldsk に等しい場合、トレーニング時間はおよそ k 倍増加します。num_bag_folds を 0 に設定するとバギングが無効になります。デフォルトでは無効になっていますが、予測パフォーマンスを最大化するために 5~10 の間の値を使用することをお勧めします。num_bag_folds を大きくすると、バイアスは低くなりますが、オーバーフィットが発生しやすいモデルになります。1 はこのパラメータでは無効な値で、ValueError が発生します。10 より大きい値ではリターンが減少する可能性があり、オーバーフィットによって全体的な結果に悪影響が及ぶことさえあります。予測をさらに改善するには、num_bag_folds を増やさず、代わりに num_bag_sets を増やします。

有効な値: 文字列、および "0" から "10" までの間の任意の整数。

デフォルト値: "0"

num_bag_sets

実行する kfold バギングの繰り返し回数 (値は 1 以上でなければなりません)。バギング中にトレーニングされるモデルの総数は num_bag_folds * num_bag_sets と等しくなります。time_limit が指定されていない場合、このパラメータのデフォルトは 1 です。num_bag_folds が指定されていない場合、このパラメータは無効になります。値が 1 より大きいと、特に小さな問題やスタッキングが有効になっている場合に、予測パフォーマンスが向上します。

有効な値: 整数、範囲: [1, 20]。

デフォルト値: 1

num_stack_levels

スタックアンサンブルで使用するスタッキングレベルの数。モデルのトレーニング時間が約 num_stack_levels +1 倍増加します。このパラメータを 0 に設定すると、スタックアンサンブルが無効になります。このパラメータはデフォルトでは無効になっていますが、予測パフォーマンスを最大化するために 1~3 の値を使用することをお勧めします。オーバーフィットや ValueError を防ぐために、num_bag_folds は 2 以上でなければなりません。

有効な値: 浮動小数点数、範囲: [0, 3]。

デフォルト値: 0

refit_full

通常のトレーニング手順の後、すべてのデータ (トレーニングと検証) ですべてのモデルに再トレーニングを行うかどうか。詳細については、「予測AutoGluon 子」を参照してください。

有効な値: 文字列、"True" または "False"

デフォルト値: "False"

set_best_to_refit_full

予測子が予測に使用するデフォルトのモデルを変更するかどうか。set_best_to_refit_full"True" に設定すると、デフォルトのモデルは、(refit_full によって有効化される) 再適合の結果として検証スコアが最も高いモデルに変更されます。refit_full が設定されている場合のみ有効です。

有効な値: 文字列、"True" または "False"

デフォルト値: "False"

save_space

新しいデータの予測に必要のない補助モデルファイルを削除して、予測変数のメモリとディスクサイズを削減するかどうか。これは推論精度には影響しません。トレーニング済みモデルを予測に使用することが唯一の目的である場合は、save_space"True" に設定することをお勧めします。save_space"True" に設定すると、一部の高度な機能が使用できなくなる場合があります。詳細については、「predictor.save_space() ドキュメント」を参照してください。

有効な値: 文字列、"True" または "False"

デフォルト値: "False"

verbosity

印刷メッセージの冗長性。verbosity レベルは 04 で、レベルが高いほど、印刷ステートメントはより詳細になります。verbosity0 にすると警告を抑制します。

有効な値: 整数、(0123、または 4) のいずれか。

デフォルト値: 2