Amazon SageMaker Autopilot のサンプルノートブック - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Autopilot のサンプルノートブック

以下のノートブックは、Autopilot のさまざまな使用ケースに対応する実践的なハンズオン例として役立ちます。

Autopilot のすべてのノートブックは、 SageMaker GitHub サンプルリポジトリの autopilot ディレクトリにあります。

Studio Classic 内の完全な Git リポジトリをクローンして、ノートブックに直接アクセスして実行することをお勧めします。Studio Classic で Git リポジトリをクローンする方法については、「」を参照してください SageMaker Studio Classic で Git リポジトリをクローンする

ユースケース 説明
サーバーレス推論

デフォルトでは、Autopilot は生成されたモデルをリアルタイムの推論エンドポイントにデプロイすることができます。このリポジトリのノートブックでは、ENSEMBLING および HYPERPARAMETER OPTIMIZATION (HPO) モードでトレーニングされた Autopilot モデルをサーバーレスエンドポイントにデプロイする方法を示しています。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトできるため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。

カスタム機能選択

Autopilot はデータセットを検査し、いくつかの候補を実行して、データの前処理ステップ、機械学習アルゴリズム、およびハイパーパラメータの最適な組み合わせを見つけ出します。リアルタイムエンドポイントにもバッチ処理にも簡単にデプロイできます。

場合によっては、Autopilot にカスタムデータ処理コードを柔軟に組み合わせることが必要になる場合があります。例えば、データセットに多数の独立変数が含まれている場合、最初に無関係な変数を削除するカスタム機能選択ステップを組み込むことができます。こうして得られたより小さなデータセットを使用して、Autopilot ジョブを実行できます。最終的には、リアルタイムまたはバッチ処理のために、カスタム処理コードと Autopilot のモデルの両方を含めることもできます。

パイプラインの例

Autopilot は ML モデルの構築プロセスを合理化しますが、MLOpsエンジニアは引き続き本番環境での ML ワークフローの作成、自動化、管理 end-to-endを担当します。 SageMaker パイプラインは、データの前処理、モデルトレーニング、ハイパーパラメータ調整、モデル評価、デプロイなど、ML ライフサイクルのさまざまなステップの自動化に役立ちます。このノートブックは、Autopilot を SageMaker Pipelines end-to-end AutoML トレーニングワークフローに組み込む方法のデモンストレーションとして機能します。Pipelines 内で Autopilot 実験を開始するには、Pipelines Lambda または Processing ステップを使用してカスタム統合コードを記述して、モデル構築ワークフローを作成する必要があります。詳細については、「Amazon Pipelines を使用して Amazon SageMaker SageMaker Autopilot ML モデルを実験から本番稼働に移行する」を参照してください。

または、Ensembling モードで Autopilot を使用する場合、Pipeline のネイティブ AutoML ステップ でネイティブ AutoML ステップを使用する方法を示すノートブックの例を参照してください。 SageMaker AutoML Autopilot をパイプライン内のネイティブステップとしてサポートすることで、パイプラインに自動トレーニングステップ (A utoMLStep) を追加し、Ensembling モードで Autopilot 実験を呼び出すことができるようになりました。

Amazon SageMaker Autopilot を使用したダイレクトマーケティング

このノートブックでは、 が Bank Marketing Data Set を使用して、顧客が銀行での定期預金に登録するかどうかを予測する方法を示します。このデータセットで Autopilot を使用し、さまざまな候補パイプラインに含まれるオプションを検討することで、最も正確な機械学習パイプラインを得ることができます。Autopilot は、2 ステップの手順で各候補を生成します。最初のステップでは、データセットに対して自動化された特徴量エンジニアリングを実行します。2 番目のステップでは、モデルを生成するためにアルゴリズムをトレーニングおよび調整します。このノートブックには、モデルのトレーニング方法と、モデルをデプロイして最適な候補を使用してバッチ推論を実行する方法の手順が含まれています。

Amazon SageMaker Autopilot による顧客解約予測

このノートブックでは、機械学習を使用して、顧客解約予測とも呼ばれる、不満のある顧客の自動識別について説明します。このサンプルでは、公開されているデータセットを分析し、そのデータセットに対して特徴量エンジニアリングを実行する方法を示しています。次に、トレーニングアルゴリズムに最適なハイパーパラメータとともに、最もパフォーマンスの高いパイプラインを選択して、モデルを調整する方法を示します。最後に、ホストされたエンドポイントにモデルをデプロイする方法と、その予測をグラウンドトゥルースに照らして評価する方法を示します。ただし、機械学習モデルから完全な予測が得られることはめったにありません。したがって、このノートブックでは、機械学習使用の財務的結果を決定する際に、予測ミスの相対コストをどのように取り込むかについても説明します。

Amazon SageMaker Autopilot とバッチ変換による上位候補の顧客チャーン予測 (Python SDK)

このノートブックでは、機械学習を使用して、顧客チャーン予測とも呼ばれる、不満のある顧客の自動識別についても説明します。このノートブックでは、推論確率を取得するようにモデルを設定して、上位 N 個のモデルを選択し、評価のために保留テストセットでバッチ変換を行う方法を示します。

注記

このノートブックは、6/19/2020 にリリースされた SageMaker Python SDK >= 1.65.1 で動作します。

Amazon SageMaker Autopilot への独自のデータ処理コードの持ち込み

このノートブックでは、Amazon SageMaker Autopilot を使用する際にカスタムデータ処理コードを組み込み、デプロイする方法を示します。これにより、Autopilot ジョブに無関係な変数を削除するカスタムの特徴選択ステップが追加されます。次に、Autopilot によって生成されたカスタム処理コードとモデルの両方をリアルタイムエンドポイントに、またはバッチ処理用に、デプロイする方法について説明します。

その他のノートブック

ルートディレクトリには、batch transformtime-series forecasting、および他のユースケースを説明するノートブックが他にもあります。