Amazon SageMaker Autopilot のサンプルノートブック

以下のノートブックは、Autopilot のさまざまな使用ケースに対応する実践的なハンズオン例として役立ちます。

Autopilot のノートブックはすべて、SageMaker AI GitHub サンプルリポジトリの autopilot ディレクトリにあります。

ノートブックに直接アクセスして実行するには、Studio Classic 内で Git リポジトリ全体のクローンを作成することをお勧めします。Studio Classic で Git リポジトリのクローンを作成する方法については、「Amazon SageMaker Studio Classicで Git レポジトリのクローンを作成する」を参照してください。

ユースケース	説明
サーバーレス推論	デフォルトでは、Autopilot は生成されたモデルをリアルタイムの推論エンドポイントにデプロイすることができます。このリポジトリのノートブックでは、`ENSEMBLING` および `HYPERPARAMETER OPTIMIZATION (HPO)` モードでトレーニングされた Autopilot モデルをサーバーレスエンドポイントにデプロイする方法を示しています。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトできるため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。
カスタム機能選択	Autopilot はデータセットを検査し、いくつかの候補を実行して、データの前処理ステップ、機械学習アルゴリズム、およびハイパーパラメータの最適な組み合わせを見つけ出します。リアルタイムエンドポイントにもバッチ処理にも簡単にデプロイできます。場合によっては、Autopilot にカスタムデータ処理コードを柔軟に組み合わせることが必要になる場合があります。例えば、データセットに多数の独立変数が含まれている場合、最初に無関係な変数を削除するカスタム機能選択ステップを組み込むことができます。こうして得られたより小さなデータセットを使用して、Autopilot ジョブを実行できます。最終的には、リアルタイムまたはバッチ処理のために、カスタム処理コードと Autopilot のモデルの両方を含めることもできます。
パイプラインの例	Autopilot は ML モデルの構築プロセスを効率化しますが、MLOps のエンジニアは依然として、本番環境でエンドツーエンドの ML ワークフローの作成、自動化、管理を担当しています。SageMaker Pipelines は、データの前処理、モデルのトレーニング、ハイパーパラメータのチューニング、モデル評価、デプロイなど、ML ライフサイクルのさまざまなステップの自動化を支援します。このノートブックは、SageMaker Pipelines のエンドツーエンドの AutoML トレーニングワークフローに Autopilot を組み込む方法のデモンストレーションとして役立ちます。Pipelines 内で Autopilot 実験を開始するには、Pipelines Lambda または Processing ステップを使用してカスタム統合コードを記述して、モデル構築ワークフローを作成する必要があります。詳細については、「Move Amazon SageMaker Autopilot ML models from experimentation to production using Amazon SageMaker Pipelines」を参照してください。あるいは、Ensembling モードで Autopilot を使用する場合は、「SageMaker Pipeline's native AutoML step」でネイティブ AutoML ステップの使用方法を示すノートブックの例を参照できます。Autopilot が Pipelines 内のネイティブステップとしてサポートされたことで、自動トレーニングステップ (AutoMLStep) を Pipelines に追加し、アンサンブルモードで Autopilot 実験を呼び出すことができるようになりました。
Amazon SageMaker Autopilot を使用したダイレクトマーケティング	このノートブックでは、銀行マーケティングデータセットを使用して、顧客が銀行で定期預金を申し込むかどうかを予測する方法を示します。このデータセットで Autopilot を使用し、さまざまな候補パイプラインに含まれるオプションを検討することで、最も正確な機械学習パイプラインを得ることができます。Autopilot は、2 ステップの手順で各候補を生成します。最初のステップでは、データセットに対して自動化された特徴量エンジニアリングを実行します。2 番目のステップでは、モデルを生成するためにアルゴリズムをトレーニングおよび調整します。このノートブックには、モデルのトレーニング方法と、モデルをデプロイして最適な候補を使用してバッチ推論を実行する方法の手順が含まれています。
Amazon SageMaker Autopilot を使用したカスタマーチャーン予測	このノートブックでは、機械学習を使用して不満を感じている顧客を自動的に特定する方法 (カスタマーチャーン予測とも呼ばれます) について説明します。このサンプルでは、公開されているデータセットを分析し、そのデータセットに対して特徴量エンジニアリングを実行する方法を示しています。次に、トレーニングアルゴリズムに最適なハイパーパラメータとともに、最もパフォーマンスの高いパイプラインを選択して、モデルを調整する方法を示します。最後に、ホストされたエンドポイントにモデルをデプロイする方法と、その予測をグラウンドトゥルースに照らして評価する方法を示します。ただし、機械学習モデルから完全な予測が得られることはめったにありません。したがって、このノートブックでは、機械学習使用の財務的結果を決定する際に、予測ミスの相対コストをどのように取り込むかについても説明します。
Amazon SageMaker Autopilot とバッチ変換 (Python SDK) を使用した上位候補によるカスタマーチャーン予測	このノートブックでも、機械学習を使用して不満を感じている顧客を自動的に特定する方法 (カスタマーチャーン予測とも呼ばれます) について説明します。このノートブックでは、推論確率を取得するようにモデルを設定して、上位 N 個のモデルを選択し、評価のために保留テストセットでバッチ変換を行う方法を示します。注記このノートブックは 2020 年 6 月 19 日にリリースされた SageMaker Python SDK 1.65.1 以降で動作します。
Amazon SageMaker Autopilot への独自のデータ処理コードの持ち込み	このノートブックでは、Amazon SageMaker Autopilot の使用時にカスタムデータ処理コードを組み込んでデプロイする方法について説明します。これにより、Autopilot ジョブに無関係な変数を削除するカスタムの特徴選択ステップが追加されます。次に、Autopilot によって生成されたカスタム処理コードとモデルの両方をリアルタイムエンドポイントに、またはバッチ処理用に、デプロイする方法について説明します。
その他のノートブック	ルートディレクトリには、batch transform、time-series forecasting、および他のユースケースを説明するノートブックが他にもあります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Autopilot 実験のデフォルトパラメータを設定する (管理者用)

動画

Amazon SageMaker Autopilot のサンプルノートブック

注記