本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
GetDocumentTextDetection
獲取用於檢測文檔中文本的 Amazon Textract 異步操作的結果。Amazon Textract 可以檢測文本行和構成一行文本的單詞。
您可以通過調用StartDocumentTextDetection,它返回一個作業標識符(JobId
。當文本檢測操作完成後,Amazon Textract 會向亞馬遜 Simple Notification Service (Amazon SNS) 主題發佈完成狀態,該主題在初始調用StartDocumentTextDetection
。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED
。如果是這樣,請調用GetDocumentTextDetection
,並傳遞作業標識符(JobId
)從初始調用到StartDocumentTextDetection
。
GetDocumentTextDetection
傳回一個Block物件。
每個文檔頁面都有一個關聯的Block
類型為頁面。每頁Block
物件是 LINE 的父項Block
對象,表示頁面上檢測到的文本行。一條線Block
對象是構成該行的每個單詞的父項。單詞表示為Block
類型為 WORD 的對象。
使用 MaxResults 參數來限制傳回的塊數量。如果結果多於MaxResults
,值NextToken
在操作響應中包含一個用於取得下一組結果的分頁符記。若要取得下一頁的結果,請調用GetDocumentTextDetection
,然後填入NextToken
請求參數與上一次調用返回的令牌值GetDocumentTextDetection
。
如需詳細資訊,請參閱「」文件文字偵測。
請求語法
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
請求參數
請求接受採用 JSON 格式的下列資料。
- JobId
-
文字偵測任務的唯一識別符。所以此
JobId
從傳回StartDocumentTextDetection
。一個JobId
值僅在 7 天內有效。類型:字串
長度限制:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
:必要 是
- MaxResults
-
每筆分頁呼叫傳回結果的數量上限。您可以指定的最大值為 1,000。如果您指定的值大於 1,000,最多只能傳回 1,000 個結果。預設值為 1,000。
類型:整數
有效範圍:最小值為 1。
:必要 否
- NextToken
-
如果之前的響應不完整(因為有更多要檢索的塊),Amazon Textract 會在響應中返回一個分頁令牌。您可以使用此分頁符記來取回下一組塊。
類型:字串
長度限制:長度下限為 1。長度上限為 255。
模式:
.*\S.*
:必要 否
回應語法
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- Blocks
-
文本檢測操作的結果。
類型:的陣列Block對象
- DetectDocumentTextModelVersion
-
類型:字串
- DocumentMetadata
-
有關 Amazon Textract 處理的文檔的信息。
DocumentMetadata
會在 Amazon Textract 視頻操作的分頁響應的每一頁中返回。類型:DocumentMetadata 物件
- JobStatus
-
文字偵測任務的目前狀態。
類型:字串
有效值:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
如果響應被截斷,Amazon Textract 將返回此令牌。您可以在後續請求中使用此符記來檢索下一組文字偵測結果。
類型:字串
長度限制:長度下限為 1。長度上限為 255。
模式:
.*\S.*
- StatusMessage
-
如果無法完成檢測任務,則返回。包含有關發生什麼錯誤的説明。
類型:字串
- Warnings
-
文檔的文本檢測操作過程中發生的警告列表。
類型:的陣列Warning對象
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼:400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼:500
- InvalidJobIdException
-
將無效的作業標識符傳遞給GetDocumentAnalysis或GetDocumentAnalysis。
HTTP 狀態碼:400
- InvalidKMSKeyException
-
表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。
HTTP 狀態碼:400
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼:400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關更多信息,請設定 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼:400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼:400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼:500
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: