准备实体识别器训练数据 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备实体识别器训练数据

要训练成功的自定义实体识别模型,向模型训练器提供高质量的数据作为输入是非常重要的。如果没有好的数据,模型就无法学会如何正确识别实体。

您可以选择以下两种方式之一向 Amazon Comprehend 提供数据,以便训练自定义实体识别模型:

  • 实体列表:列出特定实体,这样 Amazon Comprehend 就可以通过训练来识别您的自定义实体。注意:实体列表只能用于纯文本文档。

  • 注释:在多个文档中提供您的实体的位置,这样 Amazon Comprehend 就可以对实体及其上下文进行培训。要创建用于分析图像文件、PDF 或 Word 文档的模型,必须使用 PDF 注释训练识别器。

在这两种情况下,Amazon Comprehend 都会了解文档的类型和实体出现的背景,并构建一个识别器,该识别器可以在您分析文档时进行泛化以检测新实体。

创建自定义模型(或训练新版本)时,可以提供测试数据集。如果您不提供测试数据,Amazon Comprehend 将保留 10% 的输入文档用于测试模型。Amazon Comprehend 使用剩余的文档对模型进行训练。

如果您为注释训练集提供测试数据集,则测试数据必须包含创建请求中指定的每种实体类型的至少一个注释。

何时使用注释与实体列表

创建注释比创建实体列表需要更多的工作,但是生成的模型可以更加精确。使用实体列表更快,工作量也更少,但结果不够精细,也更不准确。这是因为注释为 Amazon Comprehend 提供了更多背景信息,供其在训练模型时使用。如果没有这种背景,Amazon Comprehend 在尝试识别实体时会出现更多的误报。

在某些情况下,避免使用注释带来的更高费用和工作负载更具商业意义。例如,John Johnson 这个名字对你的搜索很重要,但它是否是确切的个人并不重要。或者,使用实体列表时的指标足以为您提供所需的识别器结果。在这种情况下,改用实体列表可能是更有效的选择。

我们建议在以下情况下使用注释模式:

  • 如果您计划对图像文件、PDF 或 Word 文档进行推断。在这种情况下,您可以使用带注释的 PDF 文件训练模型,然后使用该模型为图像文件、PDF 和 Word 文档运行推理作业。

  • 当实体的含义可能模棱两可且取决于上下文时。例如,Amazon一词可以指巴西的河流,也可以指在线零售商 Amazon.com。当您构建自定义实体识别器来识别Amazon等商业实体时,应使用注释而不是实体列表,因为此方法能够更好地使用上下文来查找实体。

  • 当您愿意设置获取批注的流程时,这可能需要付出一些努力。

我们建议在以下情况下使用实体列表:

  • 当你已经有了实体列表或者相对容易地撰写一份全面的实体列表时。如果您使用实体列表,则该列表应该是完整的,或者至少涵盖您提供的训练文件中可能出现的大多数有效实体。

  • 对于首次使用的用户,通常建议使用实体列表,因为这比构造注释所需的精力更少。但是,请务必注意,经过训练的模型可能不如您使用注释时那样准确。