SageMaker Autopilot

フォーカスモード

SageMaker Autopilot - Amazon SageMaker AI

重要

2023 年 11 月 30 日現在、Autopilot の UI は、Amazon SageMaker Studio エクスペリエンスの更新の一環として Amazon SageMaker Canvas に移行しています。SageMaker Canvas は、データ準備、特徴量エンジニアリング、アルゴリズムの選択、トレーニングと調整、推論などのタスクを対象として、アナリストやシチズンデータサイエンティストにノーコード機能を提供します。ユーザーは、組み込みの視覚化と what-if 分析を活用して、データやさまざまなシナリオを調査できます。また自動予測により、モデルを簡単に実稼働化できます。Canvas は、コンピュータビジョン、需要予測、インテリジェント検索、生成 AI など、さまざまなユースケースをサポートしています。

Studio の以前のエクスペリエンスである Amazon SageMaker Studio Classic のユーザーは、Studio Classic で Autopilot UI を引き続き使用できます。コーディング経験のあるユーザーは、サポートされている SDK のあらゆる API リファレンスを引き続き使用して、技術的な実装を行うことができます。

Studio Classic でこれまで Autopilot を使用しており、SageMaker Canvas に移行する場合は、SageMaker Canvas アプリケーションを作成して使用できるように、追加のアクセス許可をユーザープロファイルまたは IAM ロールに付与する必要が生じる場合があります。詳細については、「(オプション) Studio Classic の Autopilot から SageMaker Canvas に移行する」を参照してください。

このガイドのすべての UI 関連の手順は、Amazon SageMaker Canvas に移行する前の Autopilot のスタンドアロン機能に適用されます。これらの手順に従うユーザーは、Studio Classic を使用する必要があります。

Amazon SageMaker Autopilot は、機械学習モデル (AutoML) の構築とデプロイのプロセスを自動化することにより、機械学習ワークフローのさまざまなステージの簡素化および高速化を行う機能セットです。このページでは、Amazon SageMaker Autopilot に関する重要な情報について説明します。

Autopilot は、オートパイロット、またはさまざまな程度のヒューマンガイダンスで使用できる、以下の主要なタスクを実行します。

データ分析と前処理: Autopilot は、特定の問題タイプを識別し、欠落した値を処理し、データを正規化し、特徴量を選択して、全体的にモデルトレーニング用データを準備します。
モデルの選択: Autopilot は、さまざまなアルゴリズムを調べ、交差検証リサンプリングテクニックを使用して、事前定義された目標メトリクスに基づいてアルゴリズムの予測品質を評価するメトリクスを生成します。
ハイパーパラメータの最適化: Autopilot は、最適なハイパーパラメータ構成の検索を自動化します。
モデルトレーニングと評価: Autopilot は、さまざまなモデル候補のトレーニングと評価のプロセスを自動化します。データをトレーニングおよび検証セットに分割し、トレーニングデータを使用して選択したモデル候補をトレーニングし、検証セットの未見データに基づいてパフォーマンスを評価します。最後に、パフォーマンスに基づいて最適化されたモデル候補をランク付けし、最もパフォーマンスの高いモデルを特定します。
モデルのデプロイ: Autopilot は、最もパフォーマンスの高いモデルを特定すると、モデルアーティファクトと API を公開するエンドポイントを生成することで、モデルを自動でデプロイするオプションを提供します。外部アプリケーションはエンドポイントにデータを送信し、対応する予測や推論を受信することができます。

Autopilot は、最大数百 GB の大規模データセットでの機械学習モデルの構築をサポートしています。

Autopilot が管理するこの AutoML プロセスのタスクについて以下の図に説明します。

Amazon SageMaker Autopilot AutoML プロセスの概要。

機械学習プロセスにどれだけ慣れているかとコーディング経験に応じて、さまざまな方法で Autopilot を使用できます。

Studio Classic UI を使用する: ユーザーはコードを必要としないエクスペリエンスまたはある程度の人間による入力を選択できます。

注記
リグレッションまたは分類などの問題タイプに関する表形式のデータから作成された実験のみ、Studio Classic UI 経由で使用可能です。
AutoML API を使用する: コーディング経験のあるユーザーは使用可能な SDK を使って AutoML ジョブを作成できます。このアプローチにより、柔軟性とカスタマイズオプションが向上します。すべての問題タイプで使用が可能です。

現在、Autopilot は以下の問題タイプをサポートしています。

注記

表形式のデータに関係するリグレッションまたは分類問題の場合、ユーザーは Studio Classic ユーザーインターフェイスを使用するか、API リファレンスを使用するかの 2 つのオプションから選択できます。

テキストと画像の分類、時系列予測、大規模言語モデルのファインチューニングなどのタスクは、AutoML REST API のバージョン 2 でのみ利用できます。選択した言語が Python の場合は、AWS SDK for Python (Boto3) を参照することも、Amazon SageMaker Python SDK の AutoMLV2 オブジェクトを直接参照することもできます。

ユーザーインターフェイスの利便性を優先するユーザーは、Amazon SageMaker Canvas を使用して、事前にトレーニングされたモデルや生成 AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測のニーズ、または生成 AI に合わせたカスタムモデルを作成したりできます。

CSV ファイルまたは Parquet ファイルとしてフォーマットした表形式のデータを使用したリグレッション、バイナリ、および多クラス分類。ファイルの各列には特定のデータ型の特徴量が入り、各行には観測値が入ります。受け入れられる列データ型には、数値、カテゴリ、テキスト、およびカンマ区切りの数値の文字列で構成される時系列が含まれます。
- SageMaker API リファレンスを使用してパイロット実験として Autopilot ジョブを作成する方法については、「AutoML API を使用して表形式データのリグレッションジョブまたは分類ジョブを作成する」を参照してください。
- Studio Classic UI を使用してパイロット実験として Autopilot ジョブを作成する方法については、「Studio Classic UI を使用して表形式データのリグレッション用または分類用 Autopilot 実験を作成する」を参照してください。
- 管理者として、Autopilot 実験のデフォルトのインフラストラクチャ、ネットワーク、またはセキュリティパラメータを Studio Classic UI で事前設定することを検討している場合は、「Autopilot 実験のデフォルトパラメータを設定する (管理者用)」を参照してください。
CSV ファイルまたは Parquet ファイルとしてフォーマットしたデータを使用したテキスト分類。1 つの列で分類するための文章を提供し、別の列で対応するクラスラベルを提供する必要があります。「API を使用してテキスト分類用の AutoML ジョブを作成する」を参照してください。
PNG、JPEG、または両方の組み合わせなどのイメージ形式を使用した画像分類。「AutoML API を使用して画像分類ジョブを作成する」を参照してください。
CSV ファイルまたは Parquet ファイルとしてフォーマットした時系列データを使用した時系列予測。「API を使用して時系列予測用の AutoML ジョブを作成する」を参照してください。
CSV ファイルまたは Parquet ファイルとしてフォーマットされたデータを使用した、テキスト生成のための大規模言語モデル (LLM) のファインチューニング。「API を使用してテキスト生成モデルをファインチューニングする AutoML ジョブを作成する」を参照してください。

さらに、Autopilot は、個々の特徴量の重要性を示すレポートを自動的に生成して、モデルが予測を行う方法をユーザーが理解できるようにします。これにより、リスクチームとコンプライアンスチーム、外部規制機関が使用できる、予測に影響を与える要素に関する透明性とインサイトが得られます。また、Autopilot は、評価メトリクスの要約、混同行列、受信者操作特性曲線や適合率-再現率曲線などのさまざまな視覚化を包含するモデルパフォーマンスレポートも提供します。各レポートの具体的なコンテンツは、Autopilot 実験の問題タイプによって異なります。

Autopilot 実験が提供する最適なモデル候補の説明可能性とパフォーマンスのレポートは、テキスト、イメージ、表形式データの分類の問題タイプで使用可能です。

リグレッションまたは分類などの表形式データのユースケースの場合、データがどのように操作されたか、モデル候補がどのように選択、トレーニング、調整されたかについて詳細に把握できるように、Autopilot は、データを調べて最適なパフォーマンスのモデルを見つけるために使用されたコードを含むノートブックを生成します。これらのノートブックはインタラクティブで探索的な環境を提供し、さまざまな入力の影響や実験におけるトレードオフについて学習するのに役立ちます。Autopilot が提供するデータ探索と候補定義ノートブックに独自の変更を加えることにより、よりパフォーマンスの高いモデル候補でさらに実験することもできます。

Amazon SageMaker AI では、使用した分に対してのみ料金が発生します。SageMaker AI または他の AWS サービス内の基盤となるコンピューティングリソースとストレージリソースについては、使用量に基づいてお支払いいただきます。SageMaker AI の使用コストの詳細については、Amazon SageMakerの料金」を参照してください。