本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
训练分类模型
要训练模型以进行自定义分类,您需要定义类别并提供示例文档来训练自定义模型。您可以在多类模式或多标签模式下训练模型。多类模式将单个类与每个文档关联起来。多标签模式将一个或多个类与每个文档关联起来。
自定义分类支持两种分类器模型:纯文本模型和原生文档模型。纯文本模型根据文档的文本内容对文档进行分类。原生文档模型也能根据文本内容对文档进行分类。原生文档模型还可以使用其他信号,例如来自文档布局的信号。您可以使用原生文档来训练原生文档模型,以便模型学习布局信息。
纯文本模型具有以下特征:
-
您可以使用 UTF -8 编码的文本文档训练模型。
-
您可以使用以下语言之一的文档训练模型:英语、西班牙语、德语、意大利语、法语或葡萄牙语。
-
给定分类器的训练文档必须全部使用相同的语言。
-
训练文档是纯文本,因此文本提取无需收取额外费用。
原生文档模型具有以下特征:
-
您可以使用半结构化文档训练模型,其中包括以下文档类型:
-
数字文档和扫描PDF文档。
-
Word 文档 (DOCX)。
-
图片:JPG文件、PNG文件和单页TIFF文件。
-
Textract API 输出文件JSON。
-
-
您可以使用英文文档训练模型。
-
如果您的训练文件包含扫描的文档文件,则需要支付额外的文本提取费用。详情请参阅 Amazon Comprehend
定价页面。
您可以使用任一类型的模型对任何支持的文档类型进行分类。但是,为了获得最准确的结果,我们建议使用纯文本模型对纯文本文档进行分类,使用原生文档模型对半结构化文档进行分类。