本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
GetDocumentAnalysis
获取分析文档中文本的 Amazon Textract 异步操作的结果。
通过调用来开始异步文本分析StartDocumentAnalysis,它返回作业标识符 (JobId
)。文本分析操作完成后,Amazon Textract 将完成状态发布到亚马逊 Simple Notification Service (Amazon SNS) 主题,该主题在首次调用时注册StartDocumentAnalysis
. 要获得文本检测操作的结果,请首先检查发布到 Amazon SNS 主题的状态值是否为SUCCEEDED
. 如果是的话,打电话GetDocumentAnalysis
,然后传递作业标识符(JobId
) 从最初的电话到StartDocumentAnalysis
.
GetDocumentAnalysis
返回一个数组Block对象。返回以下类型的信息:
-
表单数据(键值对)。两个相关信息返回Block对象,每种类型
KEY_VALUE_SET
: KeyBlock
对象和一个 VALUEBlock
对象。例如,名称:安娜·席尔瓦包含密钥和值。名称:是关键。安娜·席尔瓦是值。 -
表格和表格单元格数据。一张桌子
Block
对象包含有关检测到的表的信息。一个单元格Block
对象将为表中的每个单元格返回。 -
文本的行和单词。一行
Block
对象包含一个或多个 WORDBlock
对象。返回文档中检测到的所有行和单词(包括与StartDocumentAnalysis
FeatureTypes
输入参数)。
可以在表单数据和表格中检测到选择元素,例如复选框和选项按钮(单选按钮)。一个选择 _ 元素Block
对象包含有关选择元素的信息,包括选择状态。
使用MaxResults
参数以限制返回的块数。如果结果超过中指定的结果MaxResults
,的价值NextToken
在操作响应中包含一个用于获取下一组结果的分页令牌。要获取下一页结果,请致电GetDocumentAnalysis
,然后填充NextToken
具有从上一次调用返回的令牌值的请求参数GetDocumentAnalysis
.
有关更多信息,请参阅 。文档文本分析.
请求语法
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
请求参数
请求接受采用 JSON 格式的以下数据。
- JobId
-
文本检测任务的唯一标识符。这些区域有:
JobId
从返回StartDocumentAnalysis
. 一个JobId
值仅在 7 天内有效。类型: 字符串
长度约束:最小长度为 1。最大长度为 64。
模式:
^[a-zA-Z0-9-_]+$
:必需 是
- MaxResults
-
每次分页呼叫返回的最大结果数。您可以指定的最大值是 1,000。如果指定的值大于 1,000,则返回最多 1000 个结果。默认值是 1,000。
类型: 整数
有效范围:最小值为 1。
:必需 否
- NextToken
-
如果之前的响应不完整(因为需要检索更多块),Amazon Textract 将在响应中返回分页令牌。您可以使用此分页令牌来检索下一组块块。
类型: 字符串
长度约束:最小长度为 1。长度上限为 255。
模式:
.*\S.*
:必需 否
响应语法
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回的以下数据。
- AnalyzeDocumentModelVersion
-
类型: 字符串
- Blocks
-
文本分析操作的结果。
类型: 的数组Block对象
- DocumentMetadata
-
有关 Amazon Textract 处理的文档的信息。
DocumentMetadata
在 Amazon Textract 视频操作的分页响应的每一页中返回。类型:DocumentMetadata 对象
- JobStatus
-
文本检测任务的当前状态。
类型: 字符串
有效值:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
如果响应被截断,Amazon Textract 将返回此令牌。您可以在后续请求中使用此令牌来检索下一组文本检测结果。
类型: 字符串
长度约束:最小长度为 1。长度上限为 255。
模式:
.*\S.*
- StatusMessage
-
如果无法完成检测任务,则返回。包含发生什么错误的解释。
类型: 字符串
- Warnings
-
文档分析操作期间发生的警告列表。
类型: 的数组Warning对象
错误
- AccessDeniedException
-
您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。
HTTP 状态代码:400
- InternalServerError
-
Amazon Textract 遇到了一个服务问题。重新尝试您的调用。
HTTP 状态代码:500
- InvalidJobIdException
-
向传递了无效的作业标识符GetDocumentAnalysis或者去GetDocumentAnalysis.
HTTP 状态代码:400
- InvalidKMSKeyException
-
表示输入的 KMS 密钥没有解密权限,或者 KMS 密钥输入错误。
HTTP 状态代码:400
- InvalidParameterException
-
有一个输入参数违反了约束。例如,在同步操作中,
InvalidParameterException
如果两者都不会发生异常S3Object
要么Bytes
值在Document
请求参数。先验证您的参数,然后重新调用 API 操作。HTTP 状态代码:400
- InvalidS3ObjectException
-
Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,请配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除
HTTP 状态代码:400
- ProvisionedThroughputExceededException
-
请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。
HTTP 状态代码:400
- ThrottlingException
-
Amazon Textract 暂时无法处理该请求。重新尝试您的调用。
HTTP 状态代码:500
另请参阅
有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: