本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為 Amazon Personalize 準備訓練資料
選擇網域使用案例或方案並記下其資料需求之後,就可以開始準備資料了。Amazon Personalize 化可以使用以下類型的數據:
-
項目互動 — 在 Amazon Personalize 中,項目互動是使用者與目錄中項目之間的正面互動事件。例如,觀看電影,查看列表或購買一雙鞋子的用戶。
-
項目 — 項目中繼資料可能包含目錄中每個項目的價格、SKU類型、描述或可用性等資訊。
-
使用者 — 使用者中繼資料可能包含年齡、性別、忠誠度會員資格和每位使用者的興趣等資訊。
-
動作 — 動作是您可能想要向客戶推薦的參與活動。操作可能包括安裝您的移動應用程序,完成會員資料,加入您的忠誠計劃或註冊促銷電子郵件。對於「下一個最佳動作」方案,需要「動作」資料集。沒有其他自訂方案或網域使用案例使用動作資料。
-
動作互動 — 動作互動是一個用戶和一個動作之間的交互事件。「下一個最佳動作」方案會使用此資料和「動作」資料集中的資料,向使用者建議動作。沒有其他自訂方案或網域使用案例使用動作互動資料。
Amazon Personalize 會將資料存放在資料集中,每種資料類型各一個。每個資料集都有不同的需求。將資料匯入 Amazon Personalize 資料集時,您可以選擇大量匯入、個別匯入或同時匯入兩者。大量匯入涉及匯入存放在 Amazon S3 儲存貯體中一或多個CSV檔案中的大量歷史記錄。
-
如果您沒有大量資料,您可以使用個別的匯入操作來收集資料和串流事件,直到符合 Amazon Personalize 訓練要求以及網域使用案例或方案的資料需求為止。如需有關記錄事件的資訊,請參閱記錄即時事件以影響建議。如需匯入個別記錄的資訊,請參閱將個別記錄匯入 Amazon Personalize 資料集。
-
如果您不確定自己有足夠的資料,或者對資料品質有任何疑問,可以將資料匯入 Amazon Personalize 資料集,然後使用 Amazon Personalize 資料集進行分析。如需詳細資訊,請參閱分析 Amazon Personalize 資料集中的資料品質和數量。
以下各節提供每 Amazon Personalize 資料集類型的資料需求,以及準備大量資料的準則。如果您沒有大量資料,請檢閱各節以瞭解您可以透過個別匯入作業匯入的必要資料和選用資料。如果您需要格式化資料的其他協助,可以使用 Amazon SageMaker 資料牧馬人 (資料牧馬人) 準備資料。如需詳細資訊,請參閱使用 Amazon 資料牧馬人準備和匯入大量 SageMaker 資料。
準備完資料之後,您就可以建立結構描述JSON檔案了。該文件告訴 Amazon Personalize 化您的數據的結構。如需詳細資訊,請參閱為 Amazon Personalize 結構描述建立結構描述JSON檔案。
適用於所有資料類型的大量資料格式準則
下列準則和需求可協助您確保大量資料的格式正確無誤。
-
您的輸入資料必須位於 CSV (逗號分隔值) 檔案中。
-
CSV檔案的第一列必須包含欄標題。請勿將標題括在引號 (「」) 中。
-
欄必須具有唯一的英數字元名稱。例如,您無法同時新增
GENRES_FIELD_1
欄位和GENRESFIELD1
欄位。 -
請確定您具有資料集類型的必要欄位,並確定其名稱符合 Amazon Personalize 要求。例如,您的項目資料可能會IDs針對每個項目都有一個呼叫
ITEM_IDENTIFICATION_NUMBER
的欄。若要使用此欄做為 ITEM _ID 欄位,請將ITEM_ID
欄重新命名為。如果您使用資料牧馬人來格式化您的資料,您可以使用 Amazon Personalize 資料牧馬人轉換的地圖欄,以確保您的資料欄的命名正確。如需有關使用資料牧馬人準備資料的資訊,請參閱。使用 Amazon 資料牧馬人準備和匯入大量 SageMaker 資料
-
CSV檔案中的每筆記錄都必須在單行上。
-
Amazon Personalize 不支援複雜的資料類型,例如陣列和地圖。
-
若要讓 Amazon Personalize 在訓練或篩選時使用布林值資料,請使用字串值
"True"
和/"False"
或數值1
來表示真實和0
錯誤。 -
如果您使用資料牧馬人格式化資料,您可以使用資料牧馬人轉換剖析值作為類型來轉換資料類型。
-
TIMESTAMP
並且CREATION_TIMESTAMP
資料必須採用UNIX紀元時間格式。如需詳細資訊,請參閱時間戳資料。 -
避免在項目 ID,用戶 ID 和操作 ID 數據中包含任何
"
字符或特殊字符。 -
如果您的資料包含任何非ASCII編碼字元,您的CSV檔案必須以 UTF -8 格式編碼。
-
請確定您格式化任何文字資料,如中非結構化文本元數據所述。