本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
分類器訓練檔案格式
對於純文字模型,您可以將分類器訓練資料作為CSV檔案提供,也可以作為您使用 SageMaker Ground Truth 建立的增強型清單檔案提供。CSV 檔案或增強型資訊清單檔案包含每個訓練文件的文字及其相關聯的標籤。
對於原生文件模型,您會提供分類器訓練資料作為CSV檔案。CSV 檔案包含每個訓練文件的檔案名稱及其相關聯的標籤。您可以在訓練任務的 Amazon S3 輸入資料夾中包含訓練文件。
CSV 檔案
您可以在CSV檔案中提供標記為 UTF-8 的編碼文字的訓練資料。請勿包含標頭列。在檔案中新增標頭列可能會導致執行期錯誤。
對於CSV檔案中的每一列,第一欄包含一或多個類別標籤,類別標籤可以是任何有效的 UTF-8 字串。建議使用意義不重疊的清晰類別名稱。名稱可以包含空格,並且可以包含由底線或連字號連接的多個單字。
請勿在分隔資料列中值的逗號之前或之後保留任何空格字元。
CSV 檔案的確切內容取決於分類器模式和訓練資料類型。如需詳細資訊,請參閱 多類別模式和 上的區段多標籤模式。
增強型資訊清單檔案
增強型資訊清單檔案是您使用 SageMaker Ground Truth 建立的標籤資料集。Ground Truth 是一項資料標籤服務,可協助您或您雇用的員工為機器學習模型建置訓練資料集。
如需 Ground Truth 及其產生的輸出的詳細資訊,請參閱 Amazon SageMaker 開發人員指南 中的使用 SageMaker Ground Truth 來標籤資料。
增強型資訊清單檔案採用JSON行格式。在這些檔案中,每一行都是完整的JSON物件,其中包含訓練文件及其相關聯的標籤。每行的確切內容取決於分類器模式。如需詳細資訊,請參閱 多類別模式和 上的區段多標籤模式。
當您將訓練資料提供給 Amazon Comprehend 時,您可以指定一或多個標籤屬性名稱。您指定的屬性名稱數量取決於增強型資訊清單檔案是單一標籤任務的輸出還是鏈結標籤任務。
如果您的檔案是單一標籤任務的輸出,請從 Ground Truth 任務指定單一標籤屬性名稱。
如果您的檔案是鏈結標籤任務的輸出,請指定鏈結中一或多個任務的標籤屬性名稱。每個標籤屬性名稱都會提供個別任務的註釋。您最多可以從鏈結標籤任務中為增強型資訊清單檔案指定 5 個屬性。
如需鏈結標籤任務的詳細資訊,以及其產生的輸出範例,請參閱 Amazon SageMaker 開發人員指南中的鏈結標籤任務。