本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
StartDocumentTextDetection
開始非同步偵測文件中的文字。Amazon Textract 可以檢測文本行和構成一行文本的單詞。
StartDocumentTextDetection
可以分析 JPEG、PNG、TIFF 和 PDF 格式的文檔中的文本。這些文件存放在 Amazon S3 儲存貯體中。使用DocumentLocation指定文件的儲存貯體與影片檔名稱。
StartTextDetection
返回一個作業標識符 (JobId
),用於獲取操作結果。文字偵測完成後,Amazon Textract 會將完成狀態發佈至 Amazon Simple Notification Service (Amazon SNS) 主題的完成狀態,而此主題會傳送至您在NotificationChannel
。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是SUCCEEDED
。如果是這樣,請調用GetDocumentTextDetection,並傳遞作業標識符(JobId
)從初始調用到StartDocumentTextDetection
。
如需詳細資訊,請參閱「」文件文字偵測。
請求語法
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
請求參數
請求接受採用 JSON 格式的下列資料。
- ClientRequestToken
-
用於標識啟動請求的冪等令牌。如果您將相同的令牌與多個
StartDocumentTextDetection
請求,相同JobId
傳回。使用ClientRequestToken
以防止同一作業意外多次啟動。如需詳細資訊,請參閱「」調用 Amazon Textract 異步操作。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
:必要 否
- DocumentLocation
-
要處理的文檔的位置。
類型:DocumentLocation 物件
:必要 是
- JobTag
-
您指定的標識符,該編碼包含在發佈到 Amazon SNS 主題的完成通知中。例如,您可以使用
JobTag
標識完成通知對應的單據類型(例如納税表或收據)。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
[a-zA-Z0-9_.\-:]+
:必要 否
- KMSKeyId
-
用於加密推斷結果的 KMS 金鑰。此格式可以是密鑰 ID 或密鑰別名格式。提供 KMS 密鑰後,KMS 密鑰將用於客户存儲桶中的對象的服務器端加密。如果未啟用此參數,則結果將使用 SSE-S3 加密服務器端。
類型:字串
長度限制:長度下限為 1。長度上限為 2048。
模式:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
:必要 否
- NotificationChannel
-
您希望亞馬 Amazon Textract 將操作的完成狀態發佈到的 Amazon SNS 主題 ARN。
類型:NotificationChannel 物件
:必要 否
- OutputConfig
-
設置輸出是否轉到客户定義的存儲段。默認情況下,Amazon Textract 將在內部保存結果,以便通過獲取 GetDocumentTextDetection 操作進行訪問。
類型:OutputConfig 物件
:必要 否
回應語法
{
"JobId": "string"
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- JobId
-
文檔的文本檢測作業的標識符。使用
JobId
在後續調用中標識作業GetDocumentTextDetection
。一個JobId
值僅在 7 天內有效。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼:400
- BadDocumentException
-
Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制。
HTTP 狀態碼:400
- DocumentTooLargeException
-
無法處理該文檔,因為它太大。同步操作的最大文件大小為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。
HTTP 狀態碼:400
- IdempotentParameterMismatchException
-
一個
ClientRequestToken
輸入參數與操作一起重複用,但至少有一個其他輸入參數不同於先前對操作的呼叫。HTTP 狀態碼:400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼:500
- InvalidKMSKeyException
-
表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。
HTTP 狀態碼:400
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼:400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼:400
- LimitExceededException
-
超出 Amazon Textract 服務限制。例如,如果您同時啟動太多的異步作業,則調用以啟動操作 (
StartDocumentTextDetection
)引發限制拒絕例外狀況 (HTTP 狀態碼:400),直到數量同時執行任務的數量低於 Amazon Textract 服務限制。HTTP 狀態碼:400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼:400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼:500
- UnsupportedDocumentException
-
不支持輸入檔案的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 狀態碼:400
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: