翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
カスタムモデルの仕組み
Amazon SageMaker Canvas を使用し、インポートしたデータセットでカスタムモデルを構築します。構築したモデルを使用して、新しいデータで予測を行います。SageMaker Canvas では、データセット内の情報を使用して最大 250 のモデルが構築され、最適なモデルが選択されます。
モデルの構築を始めると、Canvas は 1 つ以上のモデルタイプを自動的に推奨します。モデルタイプは、以下のいずれかに分類されます。
-
数値予測 - これは、機械学習ではリグレッションと呼ばれます。数値データを予測する場合は、数値予測モデルタイプを使用します。例えば、住宅の平方フィートなどの特徴に基づいて住宅価格を予測する場合です。
-
カテゴリ予測 - これは、機械学習では分類と呼ばれます。データをグループに分類する場合は、次のカテゴリ予測モデルタイプを使用します。
-
2 カテゴリ予測 — データについて予測したいカテゴリが 2 つある場合は、2 カテゴリ予測モデルタイプ (機械学習では二項分類とも呼ばれます) を使用します。例えば、顧客のチャーン可能性予測の場合です。
-
3+ カテゴリ予測 — データについて予測したいカテゴリが 3 つ以上ある場合は、3+ カテゴリ予測モデルタイプ (機械学習ではマルチクラス分類とも呼ばれます) を使用します。例えば、過去の支払いなどの特徴に基づいて、顧客のローン状況を予測する場合です。
-
-
時系列予測 - 一定の期間を対象とした予測を行う場合は、時系列予測を使用します。例えば、次の四半期に販売する商品の数を予測する場合です。時系列予測の詳細については、「Time Series Forecasts in Amazon SageMaker Canvas」を参照してください。
-
画像予測 — 画像にラベルを割り当てる場合は、シングルラベル画像予測モデルタイプ (機械学習ではシングルラベル画像分類とも呼ばれます) を使用します。例えば、商品の画像に含まれるさまざまなタイプの製造上の欠陥を分類する場合です。
-
テキスト予測 — テキストの一部にラベルを割り当てる場合は、マルチカテゴリテキスト予測モデルタイプ (機械学習ではマルチクラステキスト分類とも呼ばれます) を使用します。例えば、ある商品のカスタマーレビューのデータセットがあり、顧客がその商品を気に入ったかそうでないかを判断する場合です。対象のテキストが、
Positive
、Negative
、またはNeutral
のいずれであるかをモデルに予測させることができます。
各モデル型でサポートされる入力データ型の表については、「カスタムモデル」を参照してください。
構築する表形式データモデル (数値モデル、カテゴリモデル、時系列予測モデル、テキスト予測モデルを含む) ごとに、[ターゲット] 列を選択します。[ターゲット列] は、予測する情報を含む列です。例えば、ユーザーがサブスクリプションをキャンセルしたかどうかを予測するモデルを構築する場合、[ターゲット列] には、ユーザーのキャンセルステータスに関する「yes
」または「no
」のデータポイントが含まれます。
画像予測モデルでは、ラベルが割り当てられた画像のデータセットを使用してモデルを構築します。ラベルのない画像については、モデルがラベルを予測します。例えば、画像が猫か犬かを予測するモデルを作成する場合、モデルを構築する際に猫または犬というラベルの付いた画像を提供します。こうすることで、モデルはラベルの付いていない画像を受け入れ、それらが猫か犬かを予測できます。
モデル構築時の注意点
モデルを構築する際は、[クイックビルド] または [標準ビルド] のいずれを選択できます。[クイックビルド] は短時間でモデルを構築できますが、[標準ビルド] の方が一般的に精度が高くなります。
表形式予測モデルと時系列予測モデルの場合、Canvas ではダウンサンプリングを使用して、それぞれ 5 GB または 30 GB を超えるデータセットのサイズを縮小します。Canvas では、階層化されたサンプリング方法を使用してダウンサンプリングを行います。次の表に、モデルタイプ別のダウンサンプルのサイズを示します。サンプリングプロセスを制御するには、Canvas の Data Wrangler を使用して、任意のサンプリング手法を使用してサンプリングできます。時系列データの場合は、再サンプリングしてデータポイントを集約できます。サンプリングの詳細については、「サンプリング」を参照してください。時系列データの再サンプリングの詳細については、「時系列データを再サンプリングする」を参照してください。
50,000 行を超えるデータセットでクイックビルドを実行する場合、Canvas はモデルトレーニング時間を短縮するために 50,000 行までのデータをサンプリングします。
次の表は、各モデルとビルドタイプの平均ビルド時間、大きなデータセットを持つモデルを構築する際のダウンサンプリングのサイズ、各ビルドタイプに必要なデータポイントの最小数と最大数などの、モデル構築プロセスの主な特徴をまとめたものです。
[制限] | 数値予測およびカテゴリ予測 | 時系列予測 | 画像予測 | テキスト予測 |
---|---|---|---|---|
クイックビルドの時間 |
2 - 20 分 |
2 - 20 分 |
15 - 30 分 |
15 - 30 分 |
標準ビルドの時間 |
2 - 4 時間 |
2 - 4 時間 |
2 - 5 時間 |
2 - 5 時間 |
ダウンサンプリングサイズ (Canvas によるダウンサンプリング後の大きなデータセットの縮小サイズ) |
5 GB |
30 GB |
該当なし |
該当なし |
クイックビルドの最小エントリ数 (行) |
2 つのカテゴリ: 500 行 3+ カテゴリ、数値、時系列: 該当なし |
該当なし |
該当なし |
該当なし |
標準ビルドの最小エントリ数 (行、画像、またはドキュメント) |
250 |
50 |
50 |
該当なし |
クイックビルドの最大エントリ数 (行、画像、またはドキュメント) |
該当なし |
該当なし |
5000 |
7500 |
標準ビルドの最大エントリ数 (行、画像、またはドキュメント) |
該当なし |
150,000 |
180,000 |
該当なし |
列の最大数 |
1,000 |
1,000 |
該当なし |
該当なし |
Canvas は、モデルタイプに応じて、データセットの残りの情報を使用して値を予測します。
-
カテゴリ予測の場合、Canvas は各行を [ターゲット列] に一覧表示されているカテゴリのいずれかに配置します。
-
数値予測の場合は、Canvas はデータセット内の情報を使用して、[ターゲット列] の数値を予測します。
-
時系列予測の場合は、Canvas は履歴データを使用して将来の [ターゲット列] の値を予測します。
-
画像予測の場合は、Canvas はラベルが割り当てられた画像を使用して、ラベルの付いていない画像のラベルを予測します。
-
テキスト予測の場合は、Canvas はラベルが割り当てられたテキストデータを分析して、ラベルの付いていないテキストのラベルを予測します。
モデルの構築に役立つその他の機能
モデルを構築する前に、Canvas の Data Wrangler を使用して、300 以上の組み込み変換と演算子を使用してデータを準備できます。Data Wrangler は、表形式データセットと画像データセットの両方の変換をサポートしています。さらに、Canvas の外部データソースに接続し、データセット全体に変換を適用するジョブを作成した後、完全に準備およびクリーンアップされたデータをエクスポートして、Canvas 外部の ML ワークフローで使用することができます。詳細については、「データ準備」を参照してください。
視覚化と分析を表示してデータを探索し、モデルに含める機能を判断するには、Data Wrangler の組み込み分析を使用できます。また、データセットに関する潜在的な問題を浮き彫りにして、その修正方法に関する推奨事項を提供するデータ品質とインサイトレポートにアクセスすることもできます。詳細については、「探索的データ分析 (EDA) を実行する」を参照してください。
Data Wrangler を通じて提供されるより高度なデータ準備と探索機能に加えて、Canvas では次の目的に使用できる、いくつかの基本的な機能を提供します。
データをフィルタリングし、一連の基本的なデータ変換にアクセスするには、「モデル構築用のデータを準備する」を参照してください。
特徴量探索用の単純な視覚化と分析にアクセスするには、「データの探索と分析」を参照してください。
モデルのプレビュー、データセットの検証、モデルの構築に使用されるランダムサンプルのサイズの変更など、その他の機能の詳細については、「モデルをプレビューする」を参照してください。
複数の列がある表形式のデータセット (カテゴリ、数値、または時系列予測の各モデルタイプを構築するためのデータセットなど) では、行にデータポイントが欠落している場合があります。Canvas はモデルを構築する際に欠損値を自動的に追加します。Canvas は、データセット内の値を使用して、欠損値の数学的近似を実行します。モデル精度を最も高くするために、欠落しているデータが見つかった場合は、その値を追加することをお勧めします。欠損データ機能は、テキスト予測モデルや画像予測モデルではサポートされていないことに注意してください。
開始方法
カスタムモデルの構築を開始するには、作成するモデルの種類に応じた「モデルの構築」手順を参照して手順に従ってください。