训练分类模型 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练分类模型

要训练模型以进行自定义分类,您需要定义类别并提供示例文档来训练自定义模型。您可以在多类模式或多标签模式下训练模型。多类模式将单个类与每个文档关联起来。多标签模式将一个或多个类与每个文档关联起来。

自定义分类支持两种分类器模型:纯文本模型和原生文档模型。纯文本模型根据文档的文本内容对文档进行分类。原生文档模型也能根据文本内容对文档进行分类。原生文档模型还可以使用其他信号,例如来自文档布局的信号。您可以使用原生文档来训练原生文档模型,以便模型学习布局信息。

纯文本模型具有以下特征:

  • 您可以使用 UTF -8 编码的文本文档训练模型。

  • 您可以使用以下语言之一的文档训练模型:英语、西班牙语、德语、意大利语、法语或葡萄牙语。

  • 给定分类器的训练文档必须全部使用相同的语言。

  • 训练文档是纯文本,因此文本提取无需收取额外费用。

原生文档模型具有以下特征:

  • 您可以使用半结构化文档训练模型,其中包括以下文档类型:

    • 数字文档和扫描PDF文档。

    • Word 文档 (DOCX)。

    • 图片:JPG文件、PNG文件和单页TIFF文件。

    • Textract API 输出文件JSON。

  • 您可以使用英文文档训练模型。

  • 如果您的训练文件包含扫描的文档文件,则需要支付额外的文本提取费用。详情请参阅 Amazon Comprehend 定价页面。

您可以使用任一类型的模型对任何支持的文档类型进行分类。但是,为了获得最准确的结果,我们建议使用纯文本模型对纯文本文档进行分类,使用原生文档模型对半结构化文档进行分类。