高度なモデル構築設定 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

高度なモデル構築設定

Amazon SageMaker Canvas は、モデルの構築時に設定できるさまざまな高度な設定をサポートしています。次のページでは、すべての詳細設定と、オプションと設定に関する追加情報を一覧表示します。

注記

現在、次の詳細設定は、数値、カテゴリ、時系列予測モデルタイプでのみサポートされています。

数値およびカテゴリ予測モデルの詳細設定

Canvas は、数値予測モデルタイプとカテゴリ予測モデルタイプに対して以下の高度な設定をサポートしています。

目標メトリクス

目標メトリクスは、Canvas がモデルの構築中に最適化するメトリクスです。メトリクスを選択しない場合、Canvas はデフォルトでメトリクスを選択します。使用可能なメトリクスの説明については、「」を参照してくださいメトリクスリファレンス

トレーニング方法

Canvas は、データセットのサイズに基づいてトレーニング方法を自動的に選択することも、手動で選択することもできます。以下のトレーニング方法を選択できます。

  • アンサンブル — SageMaker AutoGluon ライブラリを活用して、いくつかのベースモデルをトレーニングします。データセットに最適な組み合わせを見つけるために、アンサンブルモードでは、モデルとメタパラメータの設定が異なる 5~10 回のトライアルを実行します。次に、これらのモデルをスタッキングアンサンブルメソッドを使用して組み合わせ、最適な予測モデルを作成します。表形式データのアンサンブルモードでサポートされているアルゴリズムのリストについては、次のアルゴリズムセクションを参照してください。

  • ハイパーパラメータ最適化 (HPO) – データセットでトレーニングジョブを実行しながら、ベイズ最適化またはマルチ忠実度最適化を使用してハイパーパラメータを調整することで、モデルの最適なバージョン SageMaker を見つけます。HPO モードは、データセットに最も関連するアルゴリズムを選択し、モデルを調整するための最適なハイパーパラメータの範囲を選択します。モデルを調整するために、HPOモードは最大 100 回のトライアル (デフォルト) を実行して、選択した範囲内の最適なハイパーパラメータ設定を見つけます。データセットサイズが 100 MB 未満の場合、 はベイズ最適化 SageMaker を使用します。データセットが 100 MB を超える場合は、マルチ忠実度最適化 SageMaker を選択します。

    表形式データのHPOモードでサポートされているアルゴリズムのリストについては、次のアルゴリズムセクションを参照してください。

  • 自動 – データセットのサイズに基づいてアンサンブルモードまたはHPOモード SageMaker を自動的に選択します。データセットが 100 MB を超える場合は、HPOモード SageMaker を選択します。それ以外の場合は、アンサンブルモードを選択します。

アルゴリズム

Ensembling モードでは、Canvas は次の機械学習アルゴリズムをサポートしています。

  • LightGBM – 勾配ブーストで木ベースのアルゴリズムを使用する最適化されたフレームワーク。このアルゴリズムは、深さではなく幅が大きくなるツリーを使用しており、速度に関して高度に最適化されています。

  • CatBoost – 勾配ブーストで木ベースのアルゴリズムを使用するフレームワーク。カテゴリ変数の処理に最適化されています。

  • XGBoost – 幅広ではなく、深さが増す勾配ブーストで木ベースのアルゴリズムを使用するフレームワーク。

  • ランダムフォレスト – データのランダムなサブサンプルに対して複数のデシジョンツリーを使用し、置換を行うツリーベースのアルゴリズム。ツリーは各レベルで最適なノードに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するためにまとめて平均化されます。

  • エクストラツリー — データセット全体で複数のデシジョンツリーを使用するツリーベースのアルゴリズム。ツリーは各レベルでランダムに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するために平均化されます。ツリーが追加され、ランダムフォレストアルゴリズムと比較してある程度のランダム化が可能になります。

  • 線形モデル – 線形方程式を使用して観測データ内の 2 つの変数間の関係をモデル化するフレームワーク。

  • ニューラルネットワーク torch – Pytorch を使用して実装されたニューラルネットワークモデル。

  • ニューラルネットワーク fast.ai – fast.ai を使用して実装されたニューラルネットワークモデル。

HPO モード では、Canvas は次の機械学習アルゴリズムをサポートしています。

  • XGBoost – より単純で弱いモデルのセットから見積りのアンサンブルを組み合わせることで、ターゲット変数を正確に予測しようとする教師あり学習アルゴリズム。

  • 深層学習アルゴリズム – 多層パーセプトロン (MLP) とフィードフォワード人工ニューラルネットワーク。このアルゴリズムは、線形分離不可能なデータを処理できます。

データ分割

データセットをトレーニングセット (モデルの構築に使用されるデータセットの部分) と検証セット (モデルの精度の検証に使用されるデータセットの部分) の間で分割する方法を指定するオプションがあります。例えば、一般的な分割比率は 80% のトレーニングと 20% の検証です。データの 80% がモデルの構築に使用され、20% がモデルのパフォーマンスを測定するために保存されます。カスタム比率を指定しない場合、Canvas はデータセットを自動的に分割します。

最大候補数

注記

この機能は、HPOトレーニングモードでのみ使用できます。

Canvas がモデルの構築中に生成するモデル候補の最大数を指定できます。最も正確なモデルを構築するには、デフォルトの候補数である 100 を使用することをお勧めします。指定できる最大数は 250 です。モデル候補の数を減らすと、モデルの精度に影響する可能性があります。

最大ジョブランタイム

最大ジョブランタイム、または Canvas がモデルの構築に費やす最大時間を指定できます。制限時間が過ぎると、Canvas は構築を停止し、最適なモデル候補を選択します。

指定できる最大時間は 720 時間です。Canvas がモデル候補を生成し、モデルの構築を完了するのに十分な時間を確保できるように、最大ジョブ実行時間を 30 分より長くしておくことを強くお勧めします。

高度な時系列予測モデル設定

時系列予測モデルの場合、Canvas は前のセクションに記載されている目標メトリクスをサポートします。

時系列予測モデルでは、次の高度な設定もサポートされています。

アルゴリズムの選択

時系列予測モデルを構築する場合、Canvas は統計アルゴリズムと機械学習アルゴリズムのアンサンブル (または組み合わせ) を使用して、高精度の時系列予測を提供します。デフォルトでは、Canvas はデータセットの時系列に基づいて、使用可能なすべてのアルゴリズムの最適な組み合わせを選択します。ただし、予測モデルに使用する 1 つ以上のアルゴリズムを指定することもできます。この場合、Canvas は選択したアルゴリズムのみを使用して最適なブレンドを決定します。モデルのトレーニングにどのアルゴリズムを選択するかわからない場合は、使用可能なすべてのアルゴリズムを選択することをお勧めします。

注記

アルゴリズムの選択は、標準ビルドでのみサポートされています。高度な設定でアルゴリズムを選択しない場合、デフォルトではクイックビルド SageMaker を実行し、単一のツリーベースの学習アルゴリズムを使用してモデル候補をトレーニングします。クイックビルドと標準ビルドの違いの詳細については、「」を参照してくださいカスタムモデルの仕組み

Canvas は、次の時系列予測アルゴリズムをサポートしています。

  • Autoregressive Integrated Moving Average (ARIMA) – 統計分析を使用してデータを解釈し、将来の予測を行うシンプルな確率的時系列モデル。このアルゴリズムは、時系列が 100 未満の単純なデータセットに便利です。

  • 畳み込みニューラルネットワーク - 分位数回帰 (CNN-QR) – 一連の時系列から 1 つのグローバルモデルをトレーニングし、分位数デコーダーを使用して予測を行う、独自の教師あり学習アルゴリズムです。CNN-QR は、数百の時系列を含む大規模なデータセットに最適です。

  • DeepAR + – 反復ニューラルネットワーク (RNNs) を使用してスカラー時系列を予測し、すべての時系列にわたって単一のモデルを共同でトレーニングするための、独自の教師あり学習アルゴリズム。DeepAR+ は、数百の特徴時系列を含む大規模なデータセットで最適に機能します。

  • 非パラメトリック時系列 (NPTS) – 過去の観測値からサンプリングすることで、特定の時系列の将来の値分布を予測するスケーラブルで確率的なベースライン予測器。NPTS は、スパースまたは断続的な時系列 (例えば、時系列の数が 0 秒または低い個々の項目の需要を予測する) を操作する場合に役立ちます。

  • 指数平滑化 (ETS) – 古い観測の重みが指数的に減少する過去の観測の加重平均である予測を生成する予測方法。このアルゴリズムは、時系列が 100 未満の単純なデータセットと、季節性パターンのデータセットに便利です。

  • 預言者 – 強力な季節的効果と数シーズンの履歴データを持つ時系列に最も適した付加回帰モデル。このアルゴリズムは、制限に近づく非線形成長傾向を持つデータセットに役立ちます。

予測分位数

時系列予測の場合、 はターゲット時系列で 6 つのモデル候補を SageMaker トレーニングします。次に、スタッキングアンサンブルメソッドを使用してこれらのモデル SageMaker を組み合わせて、特定の目標メトリクスに最適な予測モデルを作成します。各予測モデルは、P1 と P99 の間の分位数で予測を生成することで確率予測を生成します。これらの分位数は、予測の不確実性を考慮するために使用されます。デフォルトでは、予測は 0.1 (p10)、0.5 ()、および 0.9 (p50) に対して生成されますp90。0.01 (p1) から 0.99 () までの独自の分位数を 0.01 以上の増分p99で最大 5 つ指定できます。