Amazon Personalize のトレーニングデータの準備

ドメインユースケースまたはレシピを選択し、そのデータ要件を書き留めたら、データの準備を開始します。Amazon Personalize では次のタイプのデータを使用できます。

アイテムインタラクション — Amazon Personalize では、アイテムインタラクションとは、ユーザーとカタログ内のアイテム間のポジティブなインタラクションイベントのことです。例えば、ユーザーが映画を見たり、リストを表示したり、靴を購入したりする場合です。
アイテム — アイテムメタデータには、カタログ内の各アイテムの料金、SKU タイプ、説明、可用性などの情報が含まれる場合があります。
ユーザー — ユーザーメタデータには、年齢、性別、ロイヤルティメンバーシップ、各ユーザーの関心などの情報が含まれる場合があります。
アクション — アクションは、顧客に推奨できるエンゲージメントアクティビティです。アクションには、モバイルアプリのインストール、会員プロフィールの記入、ロイヤルティプログラムへの加入、プロモーションメールへの登録などがあります。Next-Best-Action レシピには、Actions データセットが必要です。Actions データを使用するカスタムレシピやドメインユースケースは他にありません。
アクションインタラクション — アクションインタラクションは、ユーザーとアクションの間のインタラクションイベントです。Next-Best-Action レシピは、このデータと Actions データセットのデータを使用して、ユーザーにアクションを推奨します。Action-interactions データを使用するカスタムレシピやドメインユースケースは他にありません。

Amazon Personalize は、データタイプごとに 1 つずつ、データセットにデータを保存します。データセットごとに要件は異なります。Amazon Personalize データセットにデータをインポートする場合、レコードを一括でインポートするか、個別にインポートするか、その両方を実行するかを選択できます。一括インポートには、Amazon S3 バケット内の 1 つ以上の CSV ファイルに保存されている多数の履歴レコードのインポートが含まれます。

バルクデータがない場合は、Amazon Personalize トレーニング要件とドメインユースケースまたはレシピのデータ要件を満たすまで、個々のインポートオペレーションを使用してデータを収集し、イベントをストリーミングできます。イベントの記録についての詳細は、「レコメンデーションに影響を与えるリアルタイムイベントの記録」を参照してください。個別のレコードのインポートについての詳細は、「Amazon Personalize データセットへの個々のレコードのインポート」を参照してください。
十分なデータがあるかどうかわからない場合や、その品質について疑問がある場合は、Amazon Personalize データセットにデータをインポートし、Amazon Personalize を使用して分析できます。詳細については、「Amazon Personalize データセット内のデータの品質と量の分析」を参照してください。

以下のセクションでは、各 Amazon Personalize データセットタイプのデータ要件と、バルクデータを準備するためのガイドラインについて説明します。バルクデータがない場合は、セクションを確認して、個々のインポートオペレーションでインポートできる必須およびオプションのデータについて理解します。データをフォーマットするための追加のサポートが必要な場合は、Amazon SageMaker AI Data Wrangler (Data Wrangler) を使用してデータを準備できます。詳細については、「Amazon SageMaker AI Data Wrangler を使用したバルクデータの準備およびインポート」を参照してください。

データの準備が完了したら、スキーマ JSON ファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマ JSON ファイルの作成」を参照してください。

トピック

すべてのタイプのデータに関するバルクデータ形式のガイドライン

次のガイドラインと要件は、バルクデータが正しくフォーマットされていることを確認するのに役立ちます。

入力データはコンマ区切り値 (CSV) としてフォーマットである必要があります。
CSV ファイルの最初の行には、列ヘッダーが含まれている必要があります。ヘッダーを引用符 (") で囲まないでください。
列には一意の英数字名が必要です。例えば、GENRES_FIELD_1 フィールドと GENRESFIELD1 フィールドの両方を追加することはできません。
複数の CSV ファイルをインポートする場合は、すべての列ヘッダーがすべてのファイルで一致している必要があります。
データセットタイプに必要なフィールドがあることを確認し、その名前が Amazon Personalize の要件と一致していることを確認してください。例えば、アイテムデータには、各アイテムの ID を持つ ITEM_IDENTIFICATION_NUMBER と呼ばれる列を含むことがあります。この列を ITEM_ID フィールドとして使用するには、列の名前を ITEM_ID に変更します。Data Wrangler を使用してデータをフォーマットする場合は、Amazon Personalize Data Wrangler のマップ列変換を使用して、列に正しい名前が付けられていることを確認できます。

Data Wrangler を使用してデータを準備する方法については、「Amazon SageMaker AI Data Wrangler を使用したバルクデータの準備およびインポート」を参照してください。
CSV ファイルの各レコードは 1 行にする必要があります。
Amazon Personalize は、配列やマップなどの複雑なデータタイプをサポートしません。
Amazon Personalize でトレーニングまたはフィルタリング時にブールデータを使用するには、文字列値 "True" および "False" を使用するか、true に 1 および false に 0 の数値を使用します。
Data Wrangler を使用してデータをフォーマットする場合、Data Wrangler 変換の Parse Value as Type を使用してデータ型を変換できます。
TIMESTAMP および CREATION_TIMESTAMP データは UNIX エポック時間形式である必要があります。詳細については、「タイムスタンプのデータ」を参照してください。
アイテム ID、ユーザー ID、アクション ID データに " 文字や特殊文字を含めないでください。
データに ASCII でエンコードされていない文字が含まれている場合は、CSV ファイルを UTF-8 形式でエンコードする必要があります。
テキストデータは必ず、「非構造化テキストメタデータ」で説明されているとおりにフォーマットしてください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

HRNN-Coldstart

アイテムインタラクションデータ