训练分类模型

要训练模型以进行自定义分类，您需要定义类别并提供示例文档来训练自定义模型。您可以在多类或多标签模式下训练模型。 Multi-class mode 将单个类与每个文档关联起来。 Multi-label mode 将一个或多个类与每个文档关联起来。

自定义分类支持两种分类器模型：纯文本模型和原生文档模型。纯文本模型根据文档的文本内容对文档进行分类。原生文档模型也能根据文本内容对文档进行分类。原生文档模型还可以使用其他信号，例如来自文档布局的信号。您可以使用原生文档来训练原生文档模型，以便模型学习布局信息。

Plain-text 模型具有以下特征：

原生文档模型具有以下特征：

您可以使用半结构化文档训练模型，其中包括以下文档类型：
- 数字和扫描的 PDF 文档。
- Word 文档 (DOCX)。
- 图片：JPG 文件、PNG 文件和单页 TIFF 文件。
- Textract API 输出 JSON 文件。
您可以使用英文文档训练模型。
如果您的训练文件包含扫描的文档文件，则需要支付额外的文本提取费用。详情请参阅 Amazon Comprehend 定价页面。

您可以使用任一类型的模型对任何支持的文档类型进行分类。但是，为了获得最准确的结果，我们建议使用纯文本模型对纯文本文档进行分类，使用原生文档模型对半结构化文档进行分类。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

Multi-label 模式

训练自定义分类器（控制台）