本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
运行分析作业以识别自定义实体
您可以运行异步分析作业来检测一组或多个文档中的自定义实体。
开始之前
在检测自定义实体之前,您需要使用自定义实体识别模型(也称为识别器)。有关这些模型的更多信息,请参阅 训练自定义实体识别器模型。
使用纯文本注释训练的识别器仅支持纯文本文档的实体检测。使用 PDF 文档注释训练的识别器支持纯文本文档、图像、PDF 文件和 Word 文档的实体检测。对于文本文件以外的文件,Amazon Comprehend 会在运行分析之前执行文本提取。有关输入文件的信息,请参阅 异步自定义分析的输入。
如果您计划分析图像文件或扫描的 PDF 文档,则您的 IAM 策略必须授予使用两种 Amazon Textract API 方法(DetectDocumentText 和 AnalyzeDocument)的权限。Amazon Comprehend 在文本提取过程中会调用这些方法。有关策略示例,请参阅 执行文档分析操作所需的权。
要运行异步分析作业,请执行以下总体步骤:
-
将这些文档存储在 Amazon S3 存储桶中。
-
使用 API 或控制台启动分析作业。
-
监控分析作业的进度。
-
作业运行完成后,从启动作业时指定的 S3 存储桶中检索分析结果。