準備 Amazon Personalize 的訓練資料 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備 Amazon Personalize 的訓練資料

選擇網域使用案例或配方並記下其資料需求後,您就可以開始準備資料。Amazon Personalize 可以使用下列資料類型:

  • 項目互動 – 在 Amazon Personalize 中,項目互動是使用者與目錄中項目之間的正面互動事件。例如,使用者觀看電影、檢視清單或購買一雙鞋子。

  • 項目 – 項目中繼資料可能包含資訊,例如您目錄中每個項目的價格、SKU類型、描述或可用性。

  • 使用者 – 使用者中繼資料可能包含每位使用者的年齡、性別、忠誠度成員資格和興趣等資訊。

  • 動作動作是您可能想要向客戶建議的參與活動。動作可能包括安裝您的行動應用程式、完成成員資格設定檔、加入您的忠誠度計劃,或註冊促銷電子郵件。對於 Next-Best-Action配方,需要動作資料集。沒有其他自訂配方或網域使用案例會使用動作資料。

  • 動作互動 – 動作互動是使用者與動作之間的互動事件。 Next-Best-Action 配方會使用此資料和動作資料集中的資料,向您的使用者建議動作。沒有其他自訂配方或網域使用案例使用動作互動資料。

Amazon Personalize 將資料存放在資料集中,每種資料類型各一個。每個資料集都有不同的需求。當您將資料匯入 Amazon Personalize 資料集時,您可以選擇大量、個別或同時匯入記錄。大量匯入涉及匯入存放在 Amazon S3 儲存貯體中一或多個CSV檔案中的大量歷史記錄。

下列各節提供每個 Amazon Personalize 資料集類型的資料需求,以及準備大量資料的指導方針。如果您沒有大量資料,請檢閱這些區段,以了解您可以使用個別匯入操作匯入的必要和選用資料。如果您需要其他協助來格式化資料,您可以使用 Amazon SageMaker AI Data Wrangler (Data Wrangler) 來準備資料。如需詳細資訊,請參閱使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料

完成資料準備後,您就可以建立結構描述JSON檔案。此檔案會告知 Amazon Personalize 您資料的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案

所有資料類型的大量資料格式準則

下列準則和要求可協助您確保大量資料的格式正確。

  • 您的輸入資料必須位於 CSV(逗號分隔值) 檔案中。

  • CSV 檔案的第一列必須包含資料欄標頭。請勿將標題括在引號 (「」) 中。

  • 資料欄必須具有唯一的英數字元名稱。例如,您無法同時新增GENRES_FIELD_1欄位和GENRESFIELD1欄位。

  • 如果您不熟悉多個CSV檔案,則所有欄標頭都必須符合所有檔案。

  • 請確定您擁有資料集類型的必要欄位,並確保其名稱符合 Amazon Personalize 要求。例如,您的項目資料可能有針對每個項目ITEM_IDENTIFICATION_NUMBER呼叫 IDs 的資料欄。若要使用此欄做為 ITEM_ID 欄位,請將該欄重新命名為 ITEM_ID。如果您使用 Data Wrangler 來格式化資料,您可以使用 Amazon Personalize Data Wrangler 轉換的映射資料欄,以確保您的資料欄正確命名。

    如需使用 Data Wrangler 準備資料的資訊,請參閱 使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料

  • 您CSV檔案中的每個記錄都必須位於一行。

  • Amazon Personalize 不支援複雜的資料類型,例如陣列和地圖。

  • 若要讓 Amazon Personalize 在訓練或篩選時使用布林值資料,請使用 true "True"0 false 1 的字串值和 "False"或數值。

  • 如果您使用 Data Wrangler 來格式化資料,則可以使用 Data Wrangler 將剖析值轉換為類型來轉換資料類型。

  • TIMESTAMPCREATION_TIMESTAMP資料必須是 UNIXepoch 時間格式。如需詳細資訊,請參閱時間戳記資料

  • 避免在項目 ID、使用者 ID 和動作 ID 資料中包含任何字元"或特殊字元。

  • 如果您的資料包含任何未ASCII編碼的字元,您的CSV檔案必須以 UTF-8 格式進行編碼。

  • 確保您格式化任何文字資料,如 中所述非結構化文本元數據