GetDocumentAnalysis - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

GetDocumentAnalysis

獲取分析文檔中文本的 Amazon Textract 異步操作的結果。

您可以通過調用StartDocumentAnalysis,它返回一個作業標識符(JobId。當文本分析操作完成後,Amazon Textract 會向亞馬遜 Simple Notification Service (Amazon SNS) 主題發佈完成狀態,該主題在首次調用StartDocumentAnalysis。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED。如果是這樣,請調用GetDocumentAnalysis,並傳遞作業標識符(JobId)從初始調用到StartDocumentAnalysis

GetDocumentAnalysis傳回Block物件。傳回下列類型的資訊:

  • 資料表單(金鑰值對)。相關資訊會以兩種形式傳回Block對象, 每個類型KEY_VALUE_SET:一個金鑰Block對象和一個值Block物件。例如:名稱: 安娜·席爾瓦·卡羅萊納州包含一個鍵和值。名稱:是關鍵。安娜·席爾瓦·卡羅萊納州是值。

  • 表格和表格單元格數據。資料表Block對象包含有關檢測到的表的信息。儲存格Block對象返回表中的每個單元格。

  • 文本的行和單詞。一條線Block物件包含一個或多個 WORDBlock物件。返回文檔中檢測到的所有行和單詞(包括與StartDocumentAnalysis FeatureTypes輸入參數)。

選擇元素(如複選框和選項按鈕(單選按鈕)可以在表單數據和表格中檢測。選擇元素Block對象包含有關選擇元素的信息,包括選擇狀態。

使用MaxResults參數來限制傳回的區塊數量。如果結果多於MaxResults,值NextToken在操作響應中包含一個用於取得下一組結果的字符。若要取得下一頁的結果,請調用GetDocumentAnalysis,然後填入NextToken請求參數與上一次調用返回的令牌值GetDocumentAnalysis

如需詳細資訊,請參閱「」文件文字分析

請求語法

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

請求參數

請求接受採用 JSON 格式的下列資料。

JobId

文字檢測任務的唯一識別符。所以此JobIdStartDocumentAnalysis。一個JobId值僅在 7 天內有效。

類型:字串

長度約束:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

必要:是

MaxResults

每次分頁呼叫可回傳結果的數量上限。您可以指定的最大值為 1,000。如果您指定的值大於 1,000,最多只能傳回 1,000 個結果。預設值為 1,000。

類型:整數

有效範圍:最小值為 1。

必要:否

NextToken

如果之前的響應不完整(因為有更多要檢索的塊),Amazon Textract 會在響應中返回一個分頁令牌。您可以使用此分頁符來檢索下一組區塊。

類型:字串

長度約束:長度下限為 1。長度上限為 255。

模式:.*\S.*

必要:否

回應語法

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

AnalyzeDocumentModelVersion

類型:字串

Blocks

文本分析操作的結果。

類型:陣列Block對象

DocumentMetadata

有關 Amazon Textract 處理的文檔的信息。DocumentMetadata會在 Amazon Textract 視頻操作的分頁響應的每一頁中返回。

類型:DocumentMetadata 物件

JobStatus

文字檢測任務的目前狀態。

類型:字串

有效值: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

如果響應被截斷,Amazon Textract 將返回此令牌。您可以在後續請求中使用此符記來檢索下一組文字檢測結果。

類型:字串

長度約束:長度下限為 1。長度上限為 255。

模式:.*\S.*

StatusMessage

如果無法完成檢測任務,則會傳回。包含有關發生什麼錯誤的説明。

類型:字串

Warnings

文檔分析操作期間發生的警告列表。

類型:陣列Warning對象

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼:400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼:500

InvalidJobIdException

將無效的作業標識符傳遞給GetDocumentAnalysisGetDocumentAnalysis

HTTP 狀態碼:400

InvalidKMSKeyException

表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。

HTTP 狀態碼:400

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼:400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼:400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼:400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼:500

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: