GetDocumentTextDetection - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

GetDocumentTextDetection

获取用于检测文档中文本的 Amazon Textract 异步操作的结果。Amazon Textract 可以检测文本行和构成一行文本的单词。

通过调用来开始异步文本检测StartDocumentTextDetection,它返回作业标识符 (JobId)。当文本检测操作完成后,Amazon Textract 向亚马逊 Simple Notification Service (Amazon SNS) 主题发布完成状态,该主题已在首次调用时注册StartDocumentTextDetection. 要获得文本检测操作的结果,请首先检查发布到 Amazon SNS 主题的状态值是否为SUCCEEDED. 如果是的话,打电话GetDocumentTextDetection,然后传递作业标识符(JobId) 从最初的电话到StartDocumentTextDetection.

GetDocumentTextDetection返回一个数组Block对象。

每个文档页面都有关联Block的类型 PAGE。每个页面Block对象是 LINE 的父Block表示页面上检测到的文本行的对象。一行Block对象是构成该行的每个单词的父项。单词的表示为BlockWORD 类型的对象。

使用 MaxResults 参数限制返回的数据块数。如果结果超过中指定的结果MaxResults,的价值NextToken在操作响应中包含用于获取下一组结果的分页令牌。要获取下一页结果,请致电GetDocumentTextDetection,然后填充NextToken具有从上一次调用返回的令牌值的请求参数GetDocumentTextDetection.

有关更多信息,请参阅 。文本检测.

请求语法

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

请求参数

请求接受采用 JSON 格式的以下数据。

JobId

文本检测作业的唯一标识符。这些区域有:JobId从返回的StartDocumentTextDetection. 一个JobId该值仅在 7 天内有效。

类型: 字符串

长度约束:最小长度为 1。最大长度为 64。

模式:^[a-zA-Z0-9-_]+$

:必需 是

MaxResults

每个分页呼叫返回的最大结果数。您可以指定的最大值是 1,000。如果指定的值大于 1,000,则返回最多 1000 个结果。默认值是 1,000。

类型: 整数

有效范围:最小值为 1。

:必需 否

NextToken

如果之前的响应不完整(因为需要检索更多块),Amazon Textract 将在响应中返回分页令牌。您可以使用此分页令牌来检索下一组区块。

类型: 字符串

长度约束:最小长度为 1。长度上限为 255。

模式:.*\S.*

:必需 否

响应语法

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

Blocks

文本检测操作的结果。

类型: 数组的数组Block对象

DetectDocumentTextModelVersion

类型: 字符串

DocumentMetadata

有关 Amazon Textract 处理的文档的信息。DocumentMetadata在 Amazon Textract 视频操作的分页响应的每一页中返回。

类型:DocumentMetadata 对象

JobStatus

文本检测作业的当前状态。

类型: 字符串

有效值: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

如果响应被截断,Amazon Textract 将返回此令牌。您可以在后续请求中使用此令牌来检索下一组文本检测结果。

类型: 字符串

长度约束:最小长度为 1。长度上限为 255。

模式:.*\S.*

StatusMessage

如果无法完成检测作业,则返回该函数。包含发生什么错误的解释。

类型: 字符串

Warnings

文档的文本检测操作期间发生的警告列表。

类型: 数组的数组Warning对象

错误

AccessDeniedException

您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。

HTTP 状态代码:400

InternalServerError

Amazon Textract 遇到了一个服务问题。重新尝试您的调用。

HTTP 状态代码:500

InvalidJobIdException

向传递了无效的作业标识符GetDocumentAnalysis或者去GetDocumentAnalysis.

HTTP 状态代码:400

InvalidKMSKeyException

表示输入的 KMS 密钥没有解密权限,或者 KMS 密钥输入错误。

HTTP 状态代码:400

InvalidParameterException

有一个输入参数违反了约束。例如,在同步操作中,InvalidParameterException如果两者都不会发生异常S3Object要么Bytes值在Document请求参数。先验证您的参数,然后重新调用 API 操作。

HTTP 状态代码:400

InvalidS3ObjectException

Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除

HTTP 状态代码:400

ProvisionedThroughputExceededException

请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。

HTTP 状态代码:400

ThrottlingException

Amazon Textract 暂时无法处理该请求。重新尝试您的调用。

HTTP 状态代码:500

另请参阅

有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: