本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備 Amazon Personalize 的訓練資料
選擇網域使用案例或配方並記下其資料需求後,您就可以開始準備資料。Amazon Personalize 可以使用下列資料類型:
-
項目互動 – 在 Amazon Personalize 中,項目互動是使用者與目錄中項目之間的正面互動事件。例如,使用者觀看電影、檢視清單或購買一雙鞋子。
-
項目 – 項目中繼資料可能包含資訊,例如您目錄中每個項目的價格、SKU類型、描述或可用性。
-
使用者 – 使用者中繼資料可能包含每位使用者的年齡、性別、忠誠度成員資格和興趣等資訊。
-
動作 – 動作是您可能想要向客戶建議的參與活動。動作可能包括安裝您的行動應用程式、完成成員資格設定檔、加入您的忠誠度計劃,或註冊促銷電子郵件。對於 Next-Best-Action配方,需要動作資料集。沒有其他自訂配方或網域使用案例會使用動作資料。
-
動作互動 – 動作互動是使用者與動作之間的互動事件。 Next-Best-Action 配方會使用此資料和動作資料集中的資料,向您的使用者建議動作。沒有其他自訂配方或網域使用案例使用動作互動資料。
Amazon Personalize 將資料存放在資料集中,每種資料類型各一個。每個資料集都有不同的需求。當您將資料匯入 Amazon Personalize 資料集時,您可以選擇大量、個別或同時匯入記錄。大量匯入涉及匯入存放在 Amazon S3 儲存貯體中一或多個CSV檔案中的大量歷史記錄。
-
如果您沒有大量資料,則可以使用個別匯入操作來收集資料和串流事件,直到您符合 Amazon Personalize 訓練需求,以及網域使用案例或配方的資料需求為止。如需記錄事件的資訊,請參閱 記錄即時事件以影響建議。如需匯入個別記錄的資訊,請參閱 將個別記錄匯入 Amazon Personalize 資料集。
-
如果您不確定自己有足夠的資料,或對資料的品質有疑問,您可以將資料匯入 Amazon Personalize 資料集,並使用 Amazon Personalize 進行分析。如需詳細資訊,請參閱分析 Amazon Personalize 資料集中的資料品質和數量。
下列各節提供每個 Amazon Personalize 資料集類型的資料需求,以及準備大量資料的指導方針。如果您沒有大量資料,請檢閱這些區段,以了解您可以使用個別匯入操作匯入的必要和選用資料。如果您需要其他協助來格式化資料,您可以使用 Amazon SageMaker AI Data Wrangler (Data Wrangler) 來準備資料。如需詳細資訊,請參閱使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料。
完成資料準備後,您就可以建立結構描述JSON檔案。此檔案會告知 Amazon Personalize 您資料的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案。
所有資料類型的大量資料格式準則
下列準則和要求可協助您確保大量資料的格式正確。
-
您的輸入資料必須位於 CSV(逗號分隔值) 檔案中。
-
CSV 檔案的第一列必須包含資料欄標頭。請勿將標題括在引號 (「」) 中。
-
資料欄必須具有唯一的英數字元名稱。例如,您無法同時新增
GENRES_FIELD_1
欄位和GENRESFIELD1
欄位。 -
如果您不熟悉多個CSV檔案,則所有欄標頭都必須符合所有檔案。
-
請確定您擁有資料集類型的必要欄位,並確保其名稱符合 Amazon Personalize 要求。例如,您的項目資料可能有針對每個項目
ITEM_IDENTIFICATION_NUMBER
呼叫 IDs 的資料欄。若要使用此欄做為 ITEM_ID 欄位,請將該欄重新命名為ITEM_ID
。如果您使用 Data Wrangler 來格式化資料,您可以使用 Amazon Personalize Data Wrangler 轉換的映射資料欄,以確保您的資料欄正確命名。如需使用 Data Wrangler 準備資料的資訊,請參閱 使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料。
-
您CSV檔案中的每個記錄都必須位於一行。
-
Amazon Personalize 不支援複雜的資料類型,例如陣列和地圖。
-
若要讓 Amazon Personalize 在訓練或篩選時使用布林值資料,請使用 true
"True"
和0
false1
的字串值和"False"
或數值。 -
如果您使用 Data Wrangler 來格式化資料,則可以使用 Data Wrangler 將剖析值轉換為類型來轉換資料類型。
-
TIMESTAMP
和CREATION_TIMESTAMP
資料必須是 UNIXepoch 時間格式。如需詳細資訊,請參閱時間戳記資料。 -
避免在項目 ID、使用者 ID 和動作 ID 資料中包含任何字元
"
或特殊字元。 -
如果您的資料包含任何未ASCII編碼的字元,您的CSV檔案必須以 UTF-8 格式進行編碼。
-
確保您格式化任何文字資料,如 中所述非結構化文本元數據。