StartDocumentAnalysis - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

StartDocumentAnalysis

開始對輸入檔的異步分析,以瞭解檢測到的項目之間的關係,例如鍵值組、表格和選擇元素。

StartDocumentAnalysis可以分析 JPEG、PNG、TIFF 和 PDF 格式的文檔中的文本。這些文件存放在 Amazon S3 儲存貯體中。使用DocumentLocation指定文件的儲存貯體與影片檔名稱。

StartDocumentAnalysis返回一個作業標識符 (JobId),您可以用來獲取操作的結果。文字分析完成後,Amazon Textract 會將完成狀態態碼發佈至您在NotificationChannel。要獲取文本分析操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED。如果是這樣,請調用GetDocumentAnalysis,並傳遞作業標識符(JobId)從初始調用到StartDocumentAnalysis

如需詳細資訊,請參閱「」文件文字分析

請求語法

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

請求參數

請求接受採用 JSON 格式的下列資料。

ClientRequestToken

用於標識啟動請求的冪等令牌。如果您將相同的令牌與多個StartDocumentAnalysis請求,相同JobId將傳回。使用ClientRequestToken以防止同一作業意外多次啟動。如需詳細資訊,請參閱「」調用 Amazon Textract 異步操作

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

:必要 否

DocumentLocation

要處理的文檔的位置。

類型:DocumentLocation 物件

:必要 是

FeatureTypes

要執行的分析類型的列表。將 TABLE 添加到列表以返回有關輸入文檔中檢測到的表的信息。添加表單以返回檢測到的表單數據。要執行這兩種類型的分析,請將表和表格添加到FeatureTypes。文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes

類型:字串陣列

有效值: TABLES | FORMS

:必要 是

JobTag

您指定的標識符,該編碼包含在發佈到 Amazon SNS 主題的完成通知中。例如,您可以使用JobTag標識完成通知對應的單據類型(例如納税表或收據)。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:[a-zA-Z0-9_.\-:]+

:必要 否

KMSKeyId

用來加密推斷結果的 KMS 金鑰。這可以是密鑰 ID 或密鑰別名格式。提供 KMS 密鑰後,KMS 密鑰將用於客户存儲桶中的對象的服務器端加密。如果未啟用此參數,則結果將使用 SSE-S3 加密服務器端。

類型:字串

長度限制:長度下限為 1。長度上限為 2048。

模式:^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

:必要 否

NotificationChannel

您希望亞馬 Amazon Textract 將操作的完成狀態發佈到的 Amazon SNS 主題 ARN。

類型:NotificationChannel 物件

:必要 否

OutputConfig

設置輸出是否轉到客户定義的時段。默認情況下,Amazon Textract 系統會在內部保存結果,以供 GetDocumentAnalysis 操作訪問。

類型:OutputConfig 物件

:必要 否

回應語法

{ "JobId": "string" }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId

文件文字偵測任務的識別碼。使用JobId在後續調用中標識作業GetDocumentAnalysis。一個JobId值僅在 7 天內有效。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼:400

BadDocumentException

Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制

HTTP 狀態碼:400

DocumentTooLargeException

無法處理該文檔,因為它太大。同步操作的最大文件大小為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。

HTTP 狀態碼:400

IdempotentParameterMismatchException

一個ClientRequestToken輸入參數重複用於一個操作,但至少有一個其他輸入參數不同於先前對操作的呼叫。

HTTP 狀態碼:400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼:500

InvalidKMSKeyException

表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。

HTTP 狀態碼:400

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼:400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼:400

LimitExceededException

超出 Amazon Textract 服務限制。例如,如果您同時啟動太多的異步作業,則調用以啟動操作 (StartDocumentTextDetection)將引發 LimitExceededException 制 (HTTP 狀態碼:400),直到數量同時執行任務的數量低於 Amazon Textract 服務限制。

HTTP 狀態碼:400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼:400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼:500

UnsupportedDocumentException

不支持輸入檔的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 狀態碼:400

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: