トレーニング用のユーザーメタデータの準備 - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレーニング用のユーザーメタデータの準備

Amazon Personalize にインポートできるユーザーデータには、ユーザー年齢などの数値データや、性別やロイヤルティメンバーシップなどのカテゴリ別メタデータが含まれます。ユーザーに関するメタデータを Amazon Personalize の Users データセットにインポートします。

ドメインのユースケースやカスタムレシピに応じて、ユーザーメタデータは、Amazon Personalize がより関連性の高いアイテムをユーザーに推奨したり、より意味のあるユーザーセグメントを推奨したりするのに役立ちます。また、トレーニング後に、インタラクションデータのないユーザーにモデルがアイテムを推奨するのに役立ちます。ユーザーメタデータを使用するユースケースまたはレシピの詳細については、「」の「ドメインユースケースまたはレシピのデータ要件」を参照してくださいユースケースを Amazon Personalize リソースと照合する

トレーニング時に、Amazon Personalize はユーザー名、ユーザーに関するキーワード、タグなど、カテゴリ以外の文字列ユーザーデータを使用しません。ただし、このデータをインポートしても、レコメンデーションは強化されます。詳細については、「非カテゴリ別文字列データ」を参照してください。

すべてのドメインユースケースとカスタムレシピでは、一括ユーザーデータは CSV ファイルにある必要があります。ファイル内の各行は、一意のユーザーを表す必要があります。データの準備が完了したら、スキーマJSONファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマJSONファイルの作成」を参照してください。

以下のセクションでは、Amazon Personalize のユーザーデータを準備する方法について詳しく説明します。すべてのタイプのデータに関するバルクデータ形式のガイドラインについては、「バルクデータ形式のガイドライン」を参照してください。

ユーザーデータの要件

Amazon Personalize のユーザーデータ要件は次のとおりです。ユースケースとデータに応じて、カスタム列を追加できます。

  • データには、各ユーザーの一意の識別子を保存する USER_ID 列が必要です。すべてのユーザーにはユーザー ID が必要です。string 最大長が 256 文字の である必要があります。

  • データには、少なくとも 1 つのカテゴリ文字列または数値メタデータ列が必要です。ユーザーメタデータ列には、一部のユーザーの空/null 値を含めることができます。これらの列は 70% 以上完了することをお勧めします。

  • メタデータ列の最大数は 25 です。

十分なデータがあるかどうかわからない場合や、その品質について質問がある場合は、Amazon Personalize データセットにデータをインポートし、Amazon Personalize を使用して分析できます。詳細については、「Amazon Personalize データセット内のデータの品質と量を分析する」を参照してください。

カテゴリ別メタデータ

一部のレシピとすべてのドメインユースケースでは、Amazon Personalize は、ユーザーにとって最も関連性の高いアイテムを明らかにする基盤となるパターンを特定するときに、ユーザーの性別、関心、メンバーシップステータスなどのカテゴリメタデータを使用します。ユースケースに基づいて独自の値の範囲を定義します。カテゴリメタデータはどの言語でもかまいません。

複数のカテゴリを持つユーザーの場合、各値を縦棒「|」で区切ります。例えば、 INTERESTSフィールドの場合、ユーザーのデータは になりますMovies|TV Shows|Music

すべてのレシピとドメインで、カテゴリメタデータをインポートし、それを使用してユーザーの属性に基づいてレコメンデーションをフィルタリングできます。フィルタリングのレコメンデーションについては、「レコメンデーションとユーザーセグメントのフィルタリング」を参照してください。

カテゴリ値には、最大 1,000 文字を使用できます。1,000 文字を超えるカテゴリ値を持つユーザーがいる場合、データセットのインポートジョブは失敗します。

非カテゴリ別文字列データ

ユーザー を除きIDs、Amazon Personalize は、ユーザー名、ユーザーに関するキーワード、タグなど、トレーニング時にカテゴリ以外の文字列データを使用しません。ただし、Amazon Personalize はレコメンデーションをフィルタリングするときに使用できます。レコメンデーションを取得しているユーザーに関する非カテゴリ文字列データ () に基づいて、レコメンデーションにアイテムを含めるか、レコメンデーションから削除するフィルターを作成できます CurrentUser。フィルターの詳細については、「レコメンデーションとユーザーセグメントのフィルタリング」を参照してください。非カテゴリ値は最大 1000 文字です。

ユーザーメタデータの例

CSV ファイル内のユーザーメタデータの最初の数行は次のようになります。

USER_ID,AGE,GENDER,INTEREST 5,34,Male,hiking 6,56,Female,music 8,65,Male,movies|TV shows|music ... ...

USER_ID 列は必須であり、個々のユーザーごとに一意の識別子が格納されます。AGE 列は数値メタデータです。列GENDERINTEREST列には、各ユーザーのカテゴリメタデータが保存されます。

データの準備が完了したら、スキーマJSONファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマJSONファイルの作成」を参照してください。上記のサンプルデータでは、スキーマJSONファイルは次のようになります。

{ "type": "record", "name": "Users", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "AGE", "type": "int" }, { "name": "GENDER", "type": "string", "categorical": true }, { "name": "INTEREST", "type": "string", "categorical": true } ], "version": "1.0" }