準備用於訓練的使用者中 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備用於訓練的使用者中

您可以匯入 Amazon Personalize 的使用者資料包括數值資料,例如使用者年齡和類別中繼資料,例如性別或忠誠度會員資格。您可以將使用者相關的中繼資料匯入 Amazon 個人化使用者資料集

根據您的網域使用案例或自訂配方,使用者中繼資料可協助 Amazon Personalize 向使用者推薦更相關的項目,或建議更有意義的使用者細分。在訓練之後,它可以幫助您的模型為沒有任何交互數據的用戶推薦項目。如需有關哪些使用案例或方法使用使用者中繼資料的詳細資訊,請參閱中的網域使用案例或方案的資料需求將您的使用案例與 Amazon 個人化資源相符

訓練時,Amazon Personalize 不會使用非分類字串使用者資料,例如使用者名稱、關於使用者的關鍵字或標籤。不過,匯入這些資料仍然可以增強建議。如需詳細資訊,請參閱非分類字串資料

對於所有網域使用案例和自訂配方,您的大量使用者資料必須位於CSV檔案中。檔案中的每一列都應代表一個唯一的使用者。準備完資料之後,您就可以建立結構描述JSON檔案了。該文件告訴 Amazon Personalize 化您的數據的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案

以下各節提供有關如何為 Amazon Personalize 準備使用者資料的詳細資訊。如需所有資料類型的大量資料格式準則,請參閱大量資料格式準則

使用者資料需求

以下是 Amazon Personalize 的使用者資料需求。您可以根據使用案例和資料自由新增其他自訂欄。

  • 您的資料必須具有儲存每個使用者唯一識別碼的 USER _ID 欄。每個用戶都必須有一個用戶 ID。它必須是 256 string 個字元的最大長度。

  • 您的資料必須至少有一個分類字串或數值中繼資料欄。使用者中繼資料欄可以包含某些使用者的空白/空值。我們建議這些欄至少要完成 70%。

  • 中繼資料欄的最大數目為 25。

如果您不確定自己有足夠的資料,或者對資料品質有任何疑問,可以將資料匯入 Amazon Personalize 資料集,然後使用 Amazon Personalize 資料集進行分析。如需詳細資訊,請參閱分析 Amazon Personalize 資料集中的資料品質和數量

分類中繼資料

Amazon Personalize 在找出與使用者最相關項目的基礎模式時,Amazon Personalize 會使用一些方法和所有網域使用案例,例如使用者的性別、興趣或會員資格狀態等分類中繼資料。您可以根據使用案例定義自己的值範圍。分類中繼資料可以是任何語言。

對於具有多個類別的使用者,請使用垂直列「|」分隔每個值。例如,對於某個INTERESTS字段,您的用戶數據可能是Movies|TV Shows|Music

透過所有方法和網域,您可以匯入分類中繼資料,並根據使用者的屬性來篩選建議。如需篩選建議的資訊,請參閱篩選建議和使用者區段

分類值最多可包含 1000 個字元。如果使用者的分類值超過 1000 個字元,則資料集匯入工作將會失敗。

非分類字串資料

除使用者外IDs,Amazon Personalize 在訓練時不會使用非分類字串資料,例如使用者名稱、使用者關鍵字或標籤。不過,Amazon Personalize 可以在篩選建議時使用它。您可以建立篩選器,根據您要取得建議之使用者的相關非分類字串資料 (),在建議中包含或移除項目 CurrentUser。如需篩選條件的詳細資訊,請參閱篩選建議和使用者區段。非分類值最多可包含 1000 個字元。

用戶元數據示例

CSV檔案中的前幾行使用者中繼資料可能如下所示。

USER_ID,AGE,GENDER,INTEREST 5,34,Male,hiking 6,56,Female,music 8,65,Male,movies|TV shows|music ... ...

USER_ID欄為必要欄,並儲存每個個別使用者的唯一識別碼。該AGE列是數字元數據。GENDERINTEREST欄會儲存每個使用者的分類中繼資料。

準備完資料之後,您就可以建立結構描述JSON檔案了。該文件告訴 Amazon Personalize 化您的數據的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案。對於上述範例資料,這就是結構描述JSON檔案的外觀。

{ "type": "record", "name": "Users", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "AGE", "type": "int" }, { "name": "GENDER", "type": "string", "categorical": true }, { "name": "INTEREST", "type": "string", "categorical": true } ], "version": "1.0" }