GetDocumentTextDetection - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

GetDocumentTextDetection

獲取用於檢測文檔中文本的 Amazon Textract 異步操作的結果。Amazon Textract 可以檢測文本行和構成一行文本的單詞。

您可以通過調用StartDocumentTextDetection,它返回一個作業標識符(JobId。當文本檢測操作完成後,Amazon Textract 會向亞馬遜 Simple Notification Service (Amazon SNS) 主題發佈完成狀態,該主題在初始調用StartDocumentTextDetection。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED。如果是這樣,請調用GetDocumentTextDetection,並傳遞作業標識符(JobId)從初始調用到StartDocumentTextDetection

GetDocumentTextDetection傳回一個Block物件。

每個文檔頁面都有一個關聯的Block類型為頁面。每頁Block物件是 LINE 的父項Block對象,表示頁面上檢測到的文本行。一條線Block對象是構成該行的每個單詞的父項。單詞表示為Block類型為 WORD 的對象。

使用 MaxResults 參數來限制傳回的塊數量。如果結果多於MaxResults,值NextToken在操作響應中包含一個用於取得下一組結果的分頁符記。若要取得下一頁的結果,請調用GetDocumentTextDetection,然後填入NextToken請求參數與上一次調用返回的令牌值GetDocumentTextDetection

如需詳細資訊,請參閱「」文件文字偵測

請求語法

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

請求參數

請求接受採用 JSON 格式的下列資料。

JobId

文字偵測任務的唯一識別符。所以此JobId從傳回StartDocumentTextDetection。一個JobId值僅在 7 天內有效。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

:必要 是

MaxResults

每筆分頁呼叫傳回結果的數量上限。您可以指定的最大值為 1,000。如果您指定的值大於 1,000,最多只能傳回 1,000 個結果。預設值為 1,000。

類型:整數

有效範圍:最小值為 1。

:必要 否

NextToken

如果之前的響應不完整(因為有更多要檢索的塊),Amazon Textract 會在響應中返回一個分頁令牌。您可以使用此分頁符記來取回下一組塊。

類型:字串

長度限制:長度下限為 1。長度上限為 255。

模式:.*\S.*

:必要 否

回應語法

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Blocks

文本檢測操作的結果。

類型:的陣列Block對象

DetectDocumentTextModelVersion

類型:字串

DocumentMetadata

有關 Amazon Textract 處理的文檔的信息。DocumentMetadata會在 Amazon Textract 視頻操作的分頁響應的每一頁中返回。

類型:DocumentMetadata 物件

JobStatus

文字偵測任務的目前狀態。

類型:字串

有效值: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

如果響應被截斷,Amazon Textract 將返回此令牌。您可以在後續請求中使用此符記來檢索下一組文字偵測結果。

類型:字串

長度限制:長度下限為 1。長度上限為 255。

模式:.*\S.*

StatusMessage

如果無法完成檢測任務,則返回。包含有關發生什麼錯誤的説明。

類型:字串

Warnings

文檔的文本檢測操作過程中發生的警告列表。

類型:的陣列Warning對象

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼:400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼:500

InvalidJobIdException

將無效的作業標識符傳遞給GetDocumentAnalysisGetDocumentAnalysis

HTTP 狀態碼:400

InvalidKMSKeyException

表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。

HTTP 狀態碼:400

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼:400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關更多信息,請設定 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼:400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼:400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼:500

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: