トレーニングモードとアルゴリズムのサポート

Autopilot は、機械学習の問題に対処し、品質と目標のメトリクスをレポートし、必要に応じて交差検証を自動的に使用するためのさまざまなトレーニングモードとアルゴリズムをサポートします。

トレーニングモード

SageMaker Autopilot は、データセットのサイズに基づいてトレーニング方法を自動的に選択することも、手動で選択することもできます。次のような選択肢があります。

アンサンブル – Autopilot は AutoGluon ライブラリを使用して複数のベースモデルをトレーニングします。データセットに最適な組み合わせを見つけるために、アンサンブルモードではモデルとメタパラメータの設定を変えて 10 回の試行を実行します。次に、Autopilot はスタッキングアンサンブル手法を使用してこれらのモデルを組み合わせて、最適な予測モデルを作成します。Autopilot が表形式データのアンサンブルモードでサポートするアルゴリズムの一覧については、以下の「アルゴリズムサポート」セクションを参照してください。
ハイパーパラメータ最適化 (HPO) – Autopilot は、データセットでトレーニングジョブを実行しながら、ベイズ最適化または多重忠実度最適化を使用してハイパーパラメータを調整することにより、モデルの最適なバージョンを見つけます。HPO モードは、データセットに最も関連するアルゴリズムを選択し、モデルのチューニングに最適な範囲のハイパーパラメータを選択します。モデルを調整するために、HPO モードでは最大 100 回の試行 (デフォルト) を実行して、選択した範囲内で最適なハイパーパラメータ設定を見つけます。データセットのサイズが 100 MB 未満の場合、Autopilot はベイズ最適化を使用します。データセットが 100 MB より大きい場合、Autopilot は多重忠実度最適化を選択します。

多重忠実度最適化では、メトリクスはトレーニングコンテナから継続的に出力されます。選択した目標メトリクスに対してパフォーマンスが低いトライアルは早期に中止されます。パフォーマンスが良好なトライアルには、より多くのリソースが割り当てられます。

Autopilot が HPO モードでサポートするアルゴリズムの一覧については、以下の「アルゴリズムサポート」セクションを参照してください。
自動 – Autopilot は、データセットのサイズに基づいてアンサンブルモードまたは HPO モードのいずれかを自動的に選択します。データセットが 100 MB を超える場合、オートパイロットは HPO を選択します。それ以外の場合は、アンサンブルモードを選択します。次の場合、Autopilot はデータセットのサイズを読み取れないことがあります。
- AutoML ジョブに対して Virtual Private Cloud (VPC) モードを有効にすると、データセットを含む S3 バケットでは VPC からのアクセスのみが許可されます。
- データセットの入力 S3DataType が ManifestFile です。
- 入力 S3Uri には 1,000 個を超えるアイテムが含まれています。
Autopilot がデータセットのサイズを読み取れない場合、デフォルトで HPO モードが選択されます。

注記

最適なランタイムとパフォーマンスを得るには、100 MB 未満のデータセットにはアンサンブルトレーニングモードを使用してください。

アルゴリズムのサポート

HPO モードでは、Autopilot は次の種類の機械学習アルゴリズムをサポートします。

線形学習 – 分類または回帰の問題の解決に使用する、教師あり学習アルゴリズム。
XGBoost – 一連のより単純でより弱いモデルから得られた推定のアンサンブルを組み合わせることで、ターゲット変数の正確な予測を試みる、教師あり学習アルゴリズム。
深層学習アルゴリズム多層パーセプトロン (MLP) とフィードフォワード人工ニューラルネットワーク。このアルゴリズムは、線形分離不可能なデータを処理できます。

注記

機械学習の問題に使用するアルゴリズムを指定する必要はありません。Autopilot は、トレーニングのために適切なアルゴリズムを自動的に選択します。

アンサンブルモードでは、Autopilot は次の種類の機械学習アルゴリズムをサポートします。

LightGBM – 勾配ブースティングを備えたツリーベースのアルゴリズムを使用する最適化されたフレームワーク。このアルゴリズムは、深さではなく幅が大きくなるツリーを使用しており、速度に関して高度に最適化されています。
CatBoost – 勾配ブースティングを備えたツリーベースのアルゴリズムを使用する最適化されたフレームワーク。カテゴリ変数の処理に最適化されています。
XGBoost – ツリーベースのアルゴリズムと幅ではなく深さが増す勾配ブーストを使用するフレームワーク。
ランダムフォレスト – データのランダムなサブサンプルに対して複数のデシジョンツリーを使用し、置換を行うツリーベースのアルゴリズム。ツリーは各レベルで最適なノードに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するためにまとめて平均化されます。
エクストラツリー — データセット全体で複数のデシジョンツリーを使用するツリーベースのアルゴリズム。ツリーは各レベルでランダムに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するために平均化されます。ツリーが追加され、ランダムフォレストアルゴリズムと比較してある程度のランダム化が可能になります。
線形モデル – 線形方程式を使用して観測データ内の 2 つの変数間の関係をモデル化するフレームワーク。
ニューラルネットワーク torch – Pytorch を使用して実装されたニューラルネットワークモデル。
ニューラルネットワーク fast.ai – fast.ai を使用して実装されたニューラルネットワークモデル。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データセットの形式と問題タイプ

メトリクスと検証