本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
StartDocumentAnalysis
启动对输入文档的异步分析,以了解检测到的项目(例如键值对、表和选择元素)之间的关系。
StartDocumentAnalysis
可以分析 JPEG、PNG、TIFF 和 PDF 格式的文档中的文本。这些文档存储在 Amazon S3 存储桶中。使用DocumentLocation指定文档的存储桶名称和文件名。
StartDocumentAnalysis
返回作业标识符 (JobId
)您用来获取操作结果。当文本分析完成后,Amazon Textract 将完成状态发布到您在中指定的 Amazon Simple Notification Service (Amazon SNS) 主题。NotificationChannel
. 要获得文本分析操作的结果,请首先检查发布到 Amazon SNS 主题的状态值是否为SUCCEEDED
. 如果是的话,打电话GetDocumentAnalysis,然后传递作业标识符(JobId
) 从最初的电话到StartDocumentAnalysis
.
有关更多信息,请参阅 。文档文本分析.
请求语法
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
请求参数
请求接受采用 JSON 格式的以下数据。
- ClientRequestToken
-
用于标识启动请求的幂等令牌。如果你对多个使用同一个令牌
StartDocumentAnalysis
请求,同样JobId
返回。使用ClientRequestToken
以防止同样的工作不止一次被意外启动。有关更多信息,请参阅 。调用 Amazon Textract 异步操作.类型: 字符串
长度约束:最小长度为 1。最大长度为 64。
模式:
^[a-zA-Z0-9-_]+$
:必需 否
- DocumentLocation
-
要处理的文档的位置。
类型:DocumentLocation 对象
:必需 是
- FeatureTypes
-
要执行的分析类型的列表。将 TABLES 添加到列表以返回有关输入文档中检测到的表的信息。添加 FORMS 以返回检测到的表单数据。要执行这两种类型的分析,请将 TABLES 和 FORMS 添加到
FeatureTypes
. 在文档中检测到的所有行和单词都包含在响应中(包括与值无关的文本)FeatureTypes
)。类型: 字符串数组
有效值:
TABLES | FORMS
:必需 是
- JobTag
-
您指定的标识符包含在发布到 Amazon SNS 主题的完成通知中。例如,您可以使用
JobTag
以确定完成通知对应的文件类型(例如纳税表或收据)。类型: 字符串
长度约束:最小长度为 1。最大长度为 64。
模式:
[a-zA-Z0-9_.\-:]+
:必需 否
- KMSKeyId
-
用于加密推理结果的 KMS 密钥。这可以是密钥 ID 或密钥别名格式。提供 KMS 密钥后,KMS 密钥将用于对客户存储桶中的对象进行服务器端加密。如果未启用此参数,结果将使用 SSE-S3 加密服务器端。
类型: 字符串
长度约束:最小长度为 1。长度上限为 2048。
模式:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
:必需 否
- NotificationChannel
-
您希望 Amazon Textract 将操作的完成状态发布到的 Amazon SNS 主题 ARN。
类型:NotificationChannel 对象
:必需 否
- OutputConfig
-
设置输出是否转到客户定义的存储桶。默认情况下,Amazon Textract 将在内部保存结果以供 getDocumentAnalysis 操作访问。
类型:OutputConfig 对象
:必需 否
响应语法
{
"JobId": "string"
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回的以下数据。
- JobId
-
文档文本检测作业的标识符。使用
JobId
在接下来的电话中确定任务GetDocumentAnalysis
. 一个JobId
值仅在 7 天内有效。类型: 字符串
长度约束:最小长度为 1。最大长度为 64。
模式:
^[a-zA-Z0-9-_]+$
错误
- AccessDeniedException
-
您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。
HTTP 状态代码:400
- BadDocumentException
-
Amazon Textract 无法阅读文档。有关 Amazon Textract 中文档限制的更多信息,请参阅Amazon Textract 中的硬性限制.
HTTP 状态代码:400
- DocumentTooLargeException
-
无法处理该文档,因为它太大。同步操作的最大文档大小为 10 MB。对于 PDF 文件,异步操作的最大文档大小为 500 MB。
HTTP 状态代码:400
- IdempotentParameterMismatchException
-
一个
ClientRequestToken
输入参数与操作一起重用,但至少有一个其他输入参数与先前对该操作的调用中的参数不同。HTTP 状态代码:400
- InternalServerError
-
Amazon Textract 遇到了一个服务问题。重新尝试您的调用。
HTTP 状态代码:500
- InvalidKMSKeyException
-
表示输入的 KMS 密钥没有解密权限,或者 KMS 密钥输入错误。
HTTP 状态代码:400
- InvalidParameterException
-
有一个输入参数违反了约束。例如,在同步操作中,
InvalidParameterException
如果两者都不会发生异常S3Object
要么Bytes
值在Document
请求参数。先验证您的参数,然后重新调用 API 操作。HTTP 状态代码:400
- InvalidS3ObjectException
-
Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,请配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除
HTTP 状态代码:400
- LimitExceededException
-
超出了 Amazon Textract 服务限制。例如,如果同时启动太多异步作业,则调用启动操作(
StartDocumentTextDetection
例如)引发 LimitExceededException 异常 (HTTP 状态代码:400),直到并发运行的任务数量低于 Amazon Textract 服务限制。HTTP 状态代码:400
- ProvisionedThroughputExceededException
-
请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。
HTTP 状态代码:400
- ThrottlingException
-
Amazon Textract 暂时无法处理该请求。重新尝试您的调用。
HTTP 状态代码:500
- UnsupportedDocumentException
-
不支持输入文档的格式。操作文档可以是 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 状态代码:400
另请参阅
有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: