

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 準備 Amazon Personalize 的訓練資料
<a name="preparing-training-data"></a>

[選擇網域使用案例或配方](use-cases-and-recipes.md)並記下其資料需求後，您就可以開始準備資料。Amazon Personalize 可以使用下列資料類型：
+ [**項目互動**](interactions-datasets.md) – 在 Amazon Personalize 中，*項目互動*是使用者與目錄中項目之間的正面互動事件。例如，使用者觀看電影、檢視清單或購買一雙鞋子。
+ [**項目**](items-datasets.md) – 項目中繼資料可能包含資訊，例如價格、SKU 類型、描述或目錄中每個項目的可用性。
+ [**使用者**](users-datasets.md) – 使用者中繼資料可能包含每位使用者的年齡、性別、忠誠度成員資格和興趣等資訊。
+ [**動作**](actions-datasets.md) – *動作*是您可能想要向客戶建議的參與活動。動作可能包括安裝您的行動應用程式、完成成員資格設定檔、加入您的忠誠度計劃，或註冊促銷電子郵件。對於 Next-Best-Action 配方，需要動作資料集。沒有其他自訂配方或網域使用案例使用動作資料。
+ [**動作互動**](action-interactions-datasets.md) – 動作互動是使用者與動作之間的互動事件。Next-Best-Action 配方會使用此資料和動作資料集中的資料，向您的使用者建議動作。沒有其他自訂配方或網域使用案例使用動作互動資料。

Amazon Personalize 會將資料存放在*資料集*中，每種資料類型各一個。每個資料集都有不同的需求。當您將資料匯入 Amazon Personalize 資料集時，您可以選擇大量、個別或同時匯入記錄。大量匯入涉及匯入存放在 Amazon S3 儲存貯體中一或多個 CSV 檔案中的大量歷史記錄。
+ 如果您沒有大量資料，則可以使用個別匯入操作來收集資料和串流事件，直到您符合 Amazon Personalize 訓練需求和網域使用案例或配方的資料需求為止。如需記錄事件的資訊，請參閱 [記錄即時事件以影響建議](recording-events.md)。如需匯入個別記錄的資訊，請參閱 [將個別記錄匯入 Amazon Personalize 資料集](incremental-data-updates.md)。
+ 如果您不確定自己的資料是否足夠，或對資料品質有任何疑問，您可以將資料匯入 Amazon Personalize 資料集，並使用 Amazon Personalize 進行分析。如需詳細資訊，請參閱[分析 Amazon Personalize 資料集中的資料品質和數量](analyzing-data.md)。

 下列各節提供每個 Amazon Personalize 資料集類型的資料需求，以及準備大量資料的指導方針。如果您沒有大量資料，請檢閱這些區段，以了解您可以使用個別匯入操作匯入的必要和選用資料。如果您需要其他協助格式化資料，您可以使用 Amazon SageMaker AI Data Wrangler (Data Wrangler) 來準備資料。如需詳細資訊，請參閱[使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料](preparing-importing-with-data-wrangler.md)。

完成資料準備後，您就可以建立結構描述 JSON 檔案。此檔案會告知 Amazon Personalize 您資料的結構。如需詳細資訊，請參閱[為 Amazon Personalize 結構描述建立結構描述 JSON 檔案](how-it-works-dataset-schema.md)。

**Topics**
+ [所有資料類型的大量資料格式準則](#general-formatting-guidelines)
+ [準備項目互動資料以進行訓練](interactions-datasets.md)
+ [準備項目中繼資料以進行訓練](items-datasets.md)
+ [準備用於訓練的使用者中繼資料](users-datasets.md)
+ [準備要訓練的動作中繼資料](actions-datasets.md)
+ [準備用於訓練的動作互動資料](action-interactions-datasets.md)

## 所有資料類型的大量資料格式準則
<a name="general-formatting-guidelines"></a>

下列準則和要求可協助您確保大量資料的格式正確。
+ 您的輸入資料必須位於 CSV （逗號分隔值） 檔案中。
+ CSV 檔案的第一列必須包含資料欄標頭。請勿將標題括在引號 (「」) 中。
+  資料欄必須具有唯一的英數字元名稱。例如，您無法同時新增`GENRES_FIELD_1`欄位和`GENRESFIELD1`欄位。
+ 如果您植入多個 CSV 檔案，則所有資料欄標頭在所有檔案中都必須相符。
+ 請確定您擁有資料集類型的必要欄位，並確保其名稱符合 Amazon Personalize 要求。例如，您的項目資料可能有名為 的資料欄`ITEM_IDENTIFICATION_NUMBER`，其中包含每個項目IDs。若要使用此資料欄做為 ITEM\$1ID 欄位，請將資料欄重新命名為 `ITEM_ID`。如果您使用 Data Wrangler 來格式化資料，則可以使用 **Amazon Personalize Data Wrangler 轉換的映射資料欄**，以確保您的資料欄正確命名。

   如需使用 Data Wrangler 準備資料的資訊，請參閱 [使用 Amazon SageMaker AI Data Wrangler 準備和匯入大量資料](preparing-importing-with-data-wrangler.md)。
+  CSV 檔案中的每個記錄都必須在單行上。
+ Amazon Personalize 不支援複雜的資料類型，例如陣列和映射。
+ 若要讓 Amazon Personalize 在訓練或篩選時使用布林值資料，請`1`針對 true `"True"`和 `0` false 使用字串值和 `"False"`或數值。
+ 如果您使用 Data Wrangler 來格式化資料，則可以使用 Data Wrangler 將[剖析值轉換為類型](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-cast-type)來轉換資料類型。
+ `TIMESTAMP` 和 `CREATION_TIMESTAMP`資料必須是 *UNIX epoch* 時間格式。如需詳細資訊，請參閱[時間戳記資料](interactions-datasets.md#timestamp-data)。
+ 避免在項目 ID、使用者 ID 和動作 ID 資料中包含任何字元`"`或特殊字元。
+ 如果您的資料包含任何非 ASCII 編碼字元，您的 CSV 檔案必須以 UTF-8 格式編碼。
+ 請確定您格式化任何文字資料，如中所述[非結構化文字中繼資料](items-datasets.md#text-data)。