

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 训练分类模型
<a name="training-classifier-model"></a>

要训练模型以进行自定义分类，您需要定义类别并提供示例文档来训练自定义模型。您可以在多类模式或多标签模式下训练模型。多类模式将单个类与每个文档关联起来。多标签模式将一个或多个类与每个文档关联起来。

自定义分类支持两种分类器模型：纯文本模型和原生文档模型。纯文本模型根据文档的文本内容对文档进行分类。原生文档模型也能根据文本内容对文档进行分类。原生文档模型还可以使用其他信号，例如来自文档布局的信号。您可以使用原生文档来训练原生文档模型，以便模型学习布局信息。

纯文本模型具有以下特征：
+ 您可以使用 UTF-8 编码的文本文档训练模型。
+ 您可以使用以下语言之一的文档训练模型：英语、西班牙语、德语、意大利语、法语或葡萄牙语。
+ 给定分类器的训练文档必须全部使用相同的语言。
+ 训练文档是纯文本，因此文本提取无需收取额外费用。

原生文档模型具有以下特征：
+ 您可以使用半结构化文档训练模型，其中包括以下文档类型：
  + 数字和扫描的 PDF 文档。
  + Word 文档 (DOCX)。
  + 图片：JPG 文件、PNG 文件和单页 TIFF 文件。
  + Textract API 输出 JSON 文件。
+ 您可以使用英文文档训练模型。
+ 如果您的训练文件包含扫描的文档文件，则需要支付额外的文本提取费用。详情请参阅 [Amazon Comprehend](https://aws.amazon.com/comprehend/pricing) 定价页面。

您可以使用任一类型的模型对任何支持的文档类型进行分类。但是，为了获得最准确的结果，我们建议使用纯文本模型对纯文本文档进行分类，使用原生文档模型对半结构化文档进行分类。

**Topics**
+ [训练自定义分类器（控制台）](create-custom-classifier-console.md)
+ [训练自定义分类器 (API)](train-custom-classifier-api.md)
+ [测试训练数据](testing-the-model.md)
+ [分类器训练输出](train-classifier-output.md)
+ [自定义分类器指标](cer-doc-class.md)