ユーザーデータの要件カテゴリ別メタデータ非カテゴリ別文字列データユーザーメタデータの例

トレーニング用のユーザーメタデータの準備

Amazon Personalize にインポートできるユーザーデータには、ユーザーの年齢などの数値データと、性別やロイヤルティメンバーシップなどカテゴリのメタデータが含まれます。ユーザーに関するメタデータを Amazon Personalize の Users データセットにインポートします。

ドメインのユースケースやカスタムレシピに応じて、ユーザーメタデータは、Amazon Personalize がユーザーにより関連性の高いアイテムを推奨したり、より意味のあるユーザーセグメントを推奨したりするのに役立ちます。また、トレーニング後、モデルはインタラクションデータのないユーザーにアイテムを推奨できます。ユーザーメタデータを使用するユースケースまたはレシピの詳細については、「ユースケースを Amazon Personalize リソースと一致させる」のドメインユースケースまたはレシピのデータ要件を参照してください。

トレーニング中、Amazon Personalize はユーザー名、ユーザーに関するキーワード、タグなど、非カテゴリ別文字列ユーザーデータを使用しません。ただし、このデータをインポートしても、レコメンデーションが強化される可能性があります。詳細については、「非カテゴリ別文字列データ」を参照してください。

すべてのドメインユースケースとカスタムレシピでは、一括ユーザーデータは CSV ファイルにある必要があります。ファイル内の各行は、一意のユーザーを表す必要があります。データの準備が完了したら、スキーマ JSON ファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマ JSON ファイルの作成」を参照してください。

以下のセクションでは、Amazon Personalize のユーザーデータを準備する方法について詳しく説明します。すべてのタイプのデータの、バルクデータフォーマットのガイドラインについては、「バルクデータフォーマットのガイドライン」を参照してください。

ユーザーデータの要件

Amazon Personalize のユーザーデータの要件を次に示します。ユースケースとデータに応じて、さらにカスタム列を追加することができます。

データには、各ユーザーの一意の識別子を保存する USER_ID 列が必要です。すべてのユーザーにユーザー ID が必要です。最大長が 256 文字の string である必要があります。
データには、少なくとも 1 つのカテゴリ文字列または数値メタデータ列が必要です。ユーザーメタデータ列には、一部のユーザーの空/null 値を含めることができます。これらの列は、少なくとも 70% 完成していることをお勧めします。
メタデータ列の最大数は 25 です。

十分なデータがあるかどうかわからない場合や、その品質について疑問がある場合は、Amazon Personalize データセットにデータをインポートし、Amazon Personalize を使用して分析できます。詳細については、「Amazon Personalize データセット内のデータの品質と量の分析」を参照してください。

カテゴリ別メタデータ

一部のレシピと、すべてのドメインユースケースで、Amazon Personalize は、ユーザーにとって最も関連性の高いアイテムを明らかにする基本的なパターンを識別する際に、ユーザーの性別、興味、またはメンバーシップステータスなどのカテゴリメタデータを使用します。ユースケースに基づいて独自の値の範囲を定義します。カテゴリメタデータはどの言語でもかまいません。

複数のカテゴリを持つユーザーについては、バーティカルバー「|」を使用して各値を区切ります。例えば、INTERESTS フィールドの場合、ユーザーのデータは Movies|TV Shows|Music になります。

すべてのレシピとドメインで、カテゴリメタデータをインポートし、それを使用してユーザーの属性に基づいてレコメンデーションをフィルタリングできます。フィルタリングのレコメンデーションについては、「レコメンデーションとユーザーセグメントのフィルタリング」を参照してください。

カテゴリ値には、最大 1,000 文字を使用できます。1,000 文字を超えるカテゴリ値を持つユーザーがいる場合、データセットのインポートジョブは失敗します。

非カテゴリ別文字列データ

ユーザー ID を除き、Amazon Personalize は、ユーザー名、ユーザーに関するキーワード、タグなどの非カテゴリ別文字列データをトレーニング時に使用しません。ただし、Amazon Personalize はレコメンデーションをフィルタリングするときにそれを使用できます。レコメンデーションを取得するユーザー (CurrentUser) の非カテゴリ別文字列データに基づいて、レコメンデーションにアイテムを含めたり、レコメンデーションからアイテムを削除したりするフィルターを作成できます。フィルターの詳細については、「レコメンデーションとユーザーセグメントのフィルタリング」を参照してください。非カテゴリ別の値には、最大 1,000 文字まで入力できます。

ユーザーメタデータの例

CSV ファイル内のユーザーメタデータの最初の数行は次のようになります。


USER_ID,AGE,GENDER,INTEREST
5,34,Male,hiking
6,56,Female,music
8,65,Male,movies|TV shows|music
...
...

USER_ID 列は必須であり、個々のユーザーごとに一意の識別子を保存します。AGE 列は数値メタデータです。GENDER 列と INTEREST 列には、各ユーザーのカテゴリメタデータを保存します。

データの準備が完了したら、スキーマ JSON ファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマ JSON ファイルの作成」を参照してください。これは、上記のサンプルデータに対するスキーマ JSON ファイルの形式です。


{
  "type": "record",
  "name": "Users",
  "namespace": "com.amazonaws.personalize.schema",
  "fields": [
      {
          "name": "USER_ID",
          "type": "string"
      },
      {
          "name": "AGE",
          "type": "int"
      },
      {
          "name": "GENDER",
          "type": "string",
          "categorical": true
      },
      {
          "name": "INTEREST",
          "type": "string",
          "categorical": true
      }
  ],
  "version": "1.0"
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

アイテムメタデータ

アクションメタデータ