本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
StartDocumentAnalysis
開始對輸入檔的異步分析,以瞭解檢測到的項目之間的關係,例如鍵值組、表格和選擇元素。
StartDocumentAnalysis
可以分析 JPEG、PNG、TIFF 和 PDF 格式的文檔中的文本。這些文件存放在 Amazon S3 儲存貯體中。使用DocumentLocation指定文件的儲存貯體與影片檔名稱。
StartDocumentAnalysis
返回一個作業標識符 (JobId
),您可以用來獲取操作的結果。文字分析完成後,Amazon Textract 會將完成狀態態碼發佈至您在NotificationChannel
。要獲取文本分析操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED
。如果是這樣,請調用GetDocumentAnalysis,並傳遞作業標識符(JobId
)從初始調用到StartDocumentAnalysis
。
如需詳細資訊,請參閱「」文件文字分析。
請求語法
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
請求參數
請求接受採用 JSON 格式的下列資料。
- ClientRequestToken
-
用於標識啟動請求的冪等令牌。如果您將相同的令牌與多個
StartDocumentAnalysis
請求,相同JobId
將傳回。使用ClientRequestToken
以防止同一作業意外多次啟動。如需詳細資訊,請參閱「」調用 Amazon Textract 異步操作。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
:必要 否
- DocumentLocation
-
要處理的文檔的位置。
類型:DocumentLocation 物件
:必要 是
- FeatureTypes
-
要執行的分析類型的列表。將 TABLE 添加到列表以返回有關輸入文檔中檢測到的表的信息。添加表單以返回檢測到的表單數據。要執行這兩種類型的分析,請將表和表格添加到
FeatureTypes
。文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes
。類型:字串陣列
有效值:
TABLES | FORMS
:必要 是
- JobTag
-
您指定的標識符,該編碼包含在發佈到 Amazon SNS 主題的完成通知中。例如,您可以使用
JobTag
標識完成通知對應的單據類型(例如納税表或收據)。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
[a-zA-Z0-9_.\-:]+
:必要 否
- KMSKeyId
-
用來加密推斷結果的 KMS 金鑰。這可以是密鑰 ID 或密鑰別名格式。提供 KMS 密鑰後,KMS 密鑰將用於客户存儲桶中的對象的服務器端加密。如果未啟用此參數,則結果將使用 SSE-S3 加密服務器端。
類型:字串
長度限制:長度下限為 1。長度上限為 2048。
模式:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
:必要 否
- NotificationChannel
-
您希望亞馬 Amazon Textract 將操作的完成狀態發佈到的 Amazon SNS 主題 ARN。
類型:NotificationChannel 物件
:必要 否
- OutputConfig
-
設置輸出是否轉到客户定義的時段。默認情況下,Amazon Textract 系統會在內部保存結果,以供 GetDocumentAnalysis 操作訪問。
類型:OutputConfig 物件
:必要 否
回應語法
{
"JobId": "string"
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- JobId
-
文件文字偵測任務的識別碼。使用
JobId
在後續調用中標識作業GetDocumentAnalysis
。一個JobId
值僅在 7 天內有效。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼:400
- BadDocumentException
-
Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制。
HTTP 狀態碼:400
- DocumentTooLargeException
-
無法處理該文檔,因為它太大。同步操作的最大文件大小為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。
HTTP 狀態碼:400
- IdempotentParameterMismatchException
-
一個
ClientRequestToken
輸入參數重複用於一個操作,但至少有一個其他輸入參數不同於先前對操作的呼叫。HTTP 狀態碼:400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼:500
- InvalidKMSKeyException
-
表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。
HTTP 狀態碼:400
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼:400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼:400
- LimitExceededException
-
超出 Amazon Textract 服務限制。例如,如果您同時啟動太多的異步作業,則調用以啟動操作 (
StartDocumentTextDetection
)將引發 LimitExceededException 制 (HTTP 狀態碼:400),直到數量同時執行任務的數量低於 Amazon Textract 服務限制。HTTP 狀態碼:400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼:400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼:500
- UnsupportedDocumentException
-
不支持輸入檔的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 狀態碼:400
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: