GetDocumentAnalysis - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

GetDocumentAnalysis

获取分析文档中文本的 Amazon Textract 异步操作的结果。

通过调用来开始异步文本分析StartDocumentAnalysis,它返回作业标识符 (JobId)。文本分析操作完成后,Amazon Textract 将完成状态发布到亚马逊 Simple Notification Service (Amazon SNS) 主题,该主题在首次调用时注册StartDocumentAnalysis. 要获得文本检测操作的结果,请首先检查发布到 Amazon SNS 主题的状态值是否为SUCCEEDED. 如果是的话,打电话GetDocumentAnalysis,然后传递作业标识符(JobId) 从最初的电话到StartDocumentAnalysis.

GetDocumentAnalysis返回一个数组Block对象。返回以下类型的信息:

  • 表单数据(键值对)。两个相关信息返回Block对象,每种类型KEY_VALUE_SET: KeyBlock对象和一个 VALUEBlock对象。例如,名称:安娜·席尔瓦包含密钥和值。名称:是关键。安娜·席尔瓦是值。

  • 表格和表格单元格数据。一张桌子Block对象包含有关检测到的表的信息。一个单元格Block对象将为表中的每个单元格返回。

  • 文本的行和单词。一行Block对象包含一个或多个 WORDBlock对象。返回文档中检测到的所有行和单词(包括与StartDocumentAnalysis FeatureTypes输入参数)。

可以在表单数据和表格中检测到选择元素,例如复选框和选项按钮(单选按钮)。一个选择 _ 元素Block对象包含有关选择元素的信息,包括选择状态。

使用MaxResults参数以限制返回的块数。如果结果超过中指定的结果MaxResults,的价值NextToken在操作响应中包含一个用于获取下一组结果的分页令牌。要获取下一页结果,请致电GetDocumentAnalysis,然后填充NextToken具有从上一次调用返回的令牌值的请求参数GetDocumentAnalysis.

有关更多信息,请参阅 。文档文本分析.

请求语法

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

请求参数

请求接受采用 JSON 格式的以下数据。

JobId

文本检测任务的唯一标识符。这些区域有:JobId从返回StartDocumentAnalysis. 一个JobId值仅在 7 天内有效。

类型: 字符串

长度约束:最小长度为 1。最大长度为 64。

模式:^[a-zA-Z0-9-_]+$

:必需 是

MaxResults

每次分页呼叫返回的最大结果数。您可以指定的最大值是 1,000。如果指定的值大于 1,000,则返回最多 1000 个结果。默认值是 1,000。

类型: 整数

有效范围:最小值为 1。

:必需 否

NextToken

如果之前的响应不完整(因为需要检索更多块),Amazon Textract 将在响应中返回分页令牌。您可以使用此分页令牌来检索下一组块块。

类型: 字符串

长度约束:最小长度为 1。长度上限为 255。

模式:.*\S.*

:必需 否

响应语法

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

AnalyzeDocumentModelVersion

类型: 字符串

Blocks

文本分析操作的结果。

类型: 的数组Block对象

DocumentMetadata

有关 Amazon Textract 处理的文档的信息。DocumentMetadata在 Amazon Textract 视频操作的分页响应的每一页中返回。

类型:DocumentMetadata 对象

JobStatus

文本检测任务的当前状态。

类型: 字符串

有效值: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

如果响应被截断,Amazon Textract 将返回此令牌。您可以在后续请求中使用此令牌来检索下一组文本检测结果。

类型: 字符串

长度约束:最小长度为 1。长度上限为 255。

模式:.*\S.*

StatusMessage

如果无法完成检测任务,则返回。包含发生什么错误的解释。

类型: 字符串

Warnings

文档分析操作期间发生的警告列表。

类型: 的数组Warning对象

错误

AccessDeniedException

您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。

HTTP 状态代码:400

InternalServerError

Amazon Textract 遇到了一个服务问题。重新尝试您的调用。

HTTP 状态代码:500

InvalidJobIdException

向传递了无效的作业标识符GetDocumentAnalysis或者去GetDocumentAnalysis.

HTTP 状态代码:400

InvalidKMSKeyException

表示输入的 KMS 密钥没有解密权限,或者 KMS 密钥输入错误。

HTTP 状态代码:400

InvalidParameterException

有一个输入参数违反了约束。例如,在同步操作中,InvalidParameterException如果两者都不会发生异常S3Object要么Bytes值在Document请求参数。先验证您的参数,然后重新调用 API 操作。

HTTP 状态代码:400

InvalidS3ObjectException

Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,请配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除

HTTP 状态代码:400

ProvisionedThroughputExceededException

请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。

HTTP 状态代码:400

ThrottlingException

Amazon Textract 暂时无法处理该请求。重新尝试您的调用。

HTTP 状态代码:500

另请参阅

有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: