

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 訓練分類模型
<a name="training-classifier-model"></a>

若要訓練自訂分類的模型，您可以定義類別並提供範例文件來訓練自訂模型。您可以在多類別或多標籤模式中訓練模型。多類別模式會將單一類別與每個文件建立關聯。多標籤模式會將一或多個類別與每個文件建立關聯。

自訂分類支援兩種類型的分類器模型：純文字模型和原生文件模型。純文字模型會根據文件的文字內容來分類文件。原生文件模型也會根據文字內容來分類文件。原生文件模型也可以使用其他訊號，例如從文件的配置。您可以使用模型的原生文件訓練原生文件模型，以了解配置資訊。

純文字模型具有下列特性：
+ 您可以使用 UTF-8 編碼的文字文件來訓練模型。
+ 您可以使用以下其中一種語言的文件來訓練模型：英文、西班牙文、德文、義大利文、法文或葡萄牙文。
+ 指定分類器的訓練文件必須使用相同的語言。
+ 訓練文件為純文字，因此文字擷取無需額外付費。

原生文件模型具有下列特性：
+ 您可以使用半結構化文件來訓練模型，其中包含下列文件類型：
  + 數位和掃描的 PDF 文件。
  + Word 文件 (DOCX)。
  + 影像：JPG 檔案、PNG 檔案和單頁 TIFF 檔案。
  + Textract API 輸出 JSON 檔案。
+ 您可以使用英文文件來訓練模型。
+ 如果您的訓練文件包含掃描的文件檔案，則需要支付文字擷取的額外費用。如需詳細資訊，請參閱 [Amazon Comprehend 定價](https://aws.amazon.com/comprehend/pricing)頁面。

您可以使用任一類型的模型來分類任何支援的文件類型。不過，為了獲得最準確的結果，我們建議您使用純文字模型來分類純文字文件，並使用原生文件模型來分類半結構化文件。

**Topics**
+ [訓練自訂分類器 （主控台）](create-custom-classifier-console.md)
+ [訓練自訂分類器 (API)](train-custom-classifier-api.md)
+ [測試訓練資料](testing-the-model.md)
+ [分類器訓練輸出](train-classifier-output.md)
+ [自訂分類器指標](cer-doc-class.md)