

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 分類器訓練檔案格式
<a name="prep-class-data-format"></a>

對於純文字模型，您可以提供分類器訓練資料做為 CSV 檔案，或做為您使用 SageMaker AI Ground Truth 建立的擴增資訊清單檔案。CSV 檔案或擴增資訊清單檔案包含每個訓練文件的文字，及其相關聯的標籤。

對於原生文件模型，您將分類器訓練資料作為 CSV 檔案提供。CSV 檔案包含每個訓練文件的檔案名稱及其相關聯的標籤。您可以在訓練任務的 Amazon S3 輸入資料夾中包含訓練文件。

## CSV 檔案
<a name="prep-data-csv"></a>

您在 CSV 檔案中提供標示的訓練資料為 UTF-8 編碼文字。請勿包含標頭列。在檔案中新增標頭列可能會導致執行時間錯誤。

對於 CSV 檔案中的每一列，第一欄包含一或多個類別標籤，類別標籤可以是任何有效的 UTF-8 字串。建議使用意義不重疊的清晰類別名稱。名稱可以包含空格，並且可以包含由底線或連字號連接的多個單字。

請勿在分隔資料列中值的逗號之前或之後保留任何空格字元。

CSV 檔案的確切內容取決於分類器模式和訓練資料類型。如需詳細資訊，請參閱 [多類別模式](prep-classifier-data-multi-class.md)和 上的章節[多標籤模式](prep-classifier-data-multi-label.md)。

## 增強的資訊清單檔案
<a name="prep-data-annotations"></a>

擴增資訊清單檔案是您使用 SageMaker AI Ground Truth 建立的標記資料集。Ground Truth 是一種資料標記服務，可協助您或您採用的人力建置機器學習模型的訓練資料集。

如需 Ground Truth 及其產生的輸出的詳細資訊，請參閱《Amazon [ SageMaker AI 開發人員指南》中的使用 SageMaker AI Ground Truth 來標記資料](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html)。 *Amazon SageMaker *

增強的資訊清單檔案採用 JSON 行格式。在這些檔案中，每一行都是完整的 JSON 物件，其中包含訓練文件及其相關聯的標籤。每行的確切內容取決於分類器模式。如需詳細資訊，請參閱 [多類別模式](prep-classifier-data-multi-class.md)和 上的章節[多標籤模式](prep-classifier-data-multi-label.md)。

當您將訓練資料提供給 Amazon Comprehend 時，您可以指定一或多個標籤屬性名稱。您指定的屬性名稱數量取決於擴增的資訊清單檔案是單一標記任務或鏈結標記任務的輸出。

如果您的檔案是單一標記任務的輸出，請從 Ground Truth 任務指定單一標籤屬性名稱。

如果您的檔案是鏈結標記任務的輸出，請指定鏈結中一或多個任務的標籤屬性名稱。每個標籤屬性名稱都會提供個別任務的註釋。您最多可以從鏈結標記任務中為擴增的資訊清單檔案指定 5 個這些屬性。

如需鏈結標記任務的詳細資訊，以及其產生的輸出範例，請參閱《Amazon SageMaker AI 開發人員指南》中的[鏈結標記任務](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html)。