Amazon SageMaker Autopilot のサンプルノートブック - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Autopilot のサンプルノートブック

以下のノートブックは、Autopilot のさまざまな使用ケースに対応する実践的なハンズオン例として役立ちます。

Autopilot のすべてのノートブックは、SageMaker AI GitHub サンプルリポジトリの autopilot ディレクトリにあります。

ノートブックに直接アクセスして実行するには、Studio Classic 内で Git リポジトリ全体のクローンを作成することをお勧めします。Studio Classic で Git リポジトリのクローンを作成する方法については、「SageMaker Studio Classic で Git リポジトリのクローンを作成する」を参照してください。

ユースケース 説明
サーバーレス推論

デフォルトでは、Autopilot は生成されたモデルをリアルタイムの推論エンドポイントにデプロイすることができます。このリポジトリのノートブックでは、ENSEMBLING および HYPERPARAMETER OPTIMIZATION (HPO) モードでトレーニングされた Autopilot モデルをサーバーレスエンドポイントにデプロイする方法を示しています。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトできるため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。

カスタム機能選択

Autopilot はデータセットを検査し、いくつかの候補を実行して、データの前処理ステップ、機械学習アルゴリズム、およびハイパーパラメータの最適な組み合わせを見つけ出します。リアルタイムエンドポイントにもバッチ処理にも簡単にデプロイできます。

場合によっては、Autopilot にカスタムデータ処理コードを柔軟に組み合わせることが必要になる場合があります。例えば、データセットに多数の独立変数が含まれている場合、最初に無関係な変数を削除するカスタム機能選択ステップを組み込むことができます。こうして得られたより小さなデータセットを使用して、Autopilot ジョブを実行できます。最終的には、リアルタイムまたはバッチ処理のために、カスタム処理コードと Autopilot のモデルの両方を含めることもできます。

パイプラインの例

Autopilot は ML モデルの構築プロセスを効率化しますが、MLOps のエンジニアは依然として、本番環境でエンドツーエンドの ML ワークフローの作成、自動化、管理を担当しています。SageMaker Pipelines は、データの前処理、モデルのトレーニング、ハイパーパラメータのチューニング、モデル評価、デプロイなど、ML ライフサイクルのさまざまなステップの自動化を支援します。このノートブックは、SageMaker Pipelines のエンドツーエンドの AutoML トレーニングワークフローに Autopilot を組み込む方法のデモンストレーションとして役立ちます。Pipelines 内で Autopilot 実験を開始するには、Pipelines Lambda または Processing ステップを使用してカスタム統合コードを記述して、モデル構築ワークフローを作成する必要があります。詳細については、Amazon SageMaker AI Pipelines を使用して Amazon SageMaker Autopilot ML モデルを実験から本番稼働に移行する」を参照してください。

あるいは、Ensembling モードで Autopilot を使用する場合は、「SageMaker Pipeline's native AutoML step」でネイティブ AutoML ステップの使用方法を示すノートブックの例を参照できます。Autopilot が Pipelines 内のネイティブステップとしてサポートされたことで、自動トレーニングステップ (AutoMLStep) を Pipelines に追加し、アンサンブルモードで Autopilot 実験を呼び出すことができるようになりました。

Amazon SageMaker Autopilot を使用したダイレクトマーケティング

このノートブックでは、銀行マーケティングデータセットを使用して、顧客が銀行で定期預金を申し込むかどうかを予測する方法を示します。このデータセットで Autopilot を使用し、さまざまな候補パイプラインに含まれるオプションを検討することで、最も正確な機械学習パイプラインを得ることができます。Autopilot は、2 ステップの手順で各候補を生成します。最初のステップでは、データセットに対して自動化された特徴量エンジニアリングを実行します。2 番目のステップでは、モデルを生成するためにアルゴリズムをトレーニングおよび調整します。このノートブックには、モデルのトレーニング方法と、モデルをデプロイして最適な候補を使用してバッチ推論を実行する方法の手順が含まれています。

Amazon SageMaker Autopilot を使用したカスタマーチャーン予測

このノートブックでは、機械学習を使用して不満を感じている顧客を自動的に特定する方法 (カスタマーチャーン予測とも呼ばれます) について説明します。このサンプルでは、公開されているデータセットを分析し、そのデータセットに対して特徴量エンジニアリングを実行する方法を示しています。次に、トレーニングアルゴリズムに最適なハイパーパラメータとともに、最もパフォーマンスの高いパイプラインを選択して、モデルを調整する方法を示します。最後に、ホストされたエンドポイントにモデルをデプロイする方法と、その予測をグラウンドトゥルースに照らして評価する方法を示します。ただし、機械学習モデルから完全な予測が得られることはめったにありません。したがって、このノートブックでは、機械学習使用の財務的結果を決定する際に、予測ミスの相対コストをどのように取り込むかについても説明します。

Amazon SageMaker Autopilot とバッチ変換 (Python SDK) を使用した上位候補によるカスタマーチャーン予測

このノートブックでも、機械学習を使用して不満を感じている顧客を自動的に特定する方法 (カスタマーチャーン予測とも呼ばれます) について説明します。このノートブックでは、推論確率を取得するようにモデルを設定して、上位 N 個のモデルを選択し、評価のために保留テストセットでバッチ変換を行う方法を示します。

注記

このノートブックは 2020 年 6 月 19 日にリリースされた SageMaker Python SDK 1.65.1 以降で動作します。

Amazon SageMaker Autopilot への独自のデータ処理コードの持ち込み

このノートブックでは、Amazon SageMaker Autopilot の使用時にカスタムデータ処理コードを組み込んでデプロイする方法について説明します。これにより、Autopilot ジョブに無関係な変数を削除するカスタムの特徴選択ステップが追加されます。次に、Autopilot によって生成されたカスタム処理コードとモデルの両方をリアルタイムエンドポイントに、またはバッチ処理用に、デプロイする方法について説明します。

その他のノートブック

ルートディレクトリには、batch transformtime-series forecasting、および他のユースケースを説明するノートブックが他にもあります。