本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
GetDocumentAnalysis
獲取分析文檔中文本的 Amazon Textract 異步操作的結果。
您可以通過調用StartDocumentAnalysis,它返回一個作業標識符(JobId
。當文本分析操作完成後,Amazon Textract 會向亞馬遜 Simple Notification Service (Amazon SNS) 主題發佈完成狀態,該主題在首次調用StartDocumentAnalysis
。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是否為SUCCEEDED
。如果是這樣,請調用GetDocumentAnalysis
,並傳遞作業標識符(JobId
)從初始調用到StartDocumentAnalysis
。
GetDocumentAnalysis
傳回Block物件。傳回下列類型的資訊:
-
資料表單(金鑰值對)。相關資訊會以兩種形式傳回Block對象, 每個類型
KEY_VALUE_SET
:一個金鑰Block
對象和一個值Block
物件。例如:名稱: 安娜·席爾瓦·卡羅萊納州包含一個鍵和值。名稱:是關鍵。安娜·席爾瓦·卡羅萊納州是值。 -
表格和表格單元格數據。資料表
Block
對象包含有關檢測到的表的信息。儲存格Block
對象返回表中的每個單元格。 -
文本的行和單詞。一條線
Block
物件包含一個或多個 WORDBlock
物件。返回文檔中檢測到的所有行和單詞(包括與StartDocumentAnalysis
FeatureTypes
輸入參數)。
選擇元素(如複選框和選項按鈕(單選按鈕)可以在表單數據和表格中檢測。選擇元素Block
對象包含有關選擇元素的信息,包括選擇狀態。
使用MaxResults
參數來限制傳回的區塊數量。如果結果多於MaxResults
,值NextToken
在操作響應中包含一個用於取得下一組結果的字符。若要取得下一頁的結果,請調用GetDocumentAnalysis
,然後填入NextToken
請求參數與上一次調用返回的令牌值GetDocumentAnalysis
。
如需詳細資訊,請參閱「」文件文字分析。
請求語法
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
請求參數
請求接受採用 JSON 格式的下列資料。
- JobId
-
文字檢測任務的唯一識別符。所以此
JobId
從StartDocumentAnalysis
。一個JobId
值僅在 7 天內有效。類型:字串
長度約束:長度下限為 1。長度上限為 64。
模式:
^[a-zA-Z0-9-_]+$
必要:是
- MaxResults
-
每次分頁呼叫可回傳結果的數量上限。您可以指定的最大值為 1,000。如果您指定的值大於 1,000,最多只能傳回 1,000 個結果。預設值為 1,000。
類型:整數
有效範圍:最小值為 1。
必要:否
- NextToken
-
如果之前的響應不完整(因為有更多要檢索的塊),Amazon Textract 會在響應中返回一個分頁令牌。您可以使用此分頁符來檢索下一組區塊。
類型:字串
長度約束:長度下限為 1。長度上限為 255。
模式:
.*\S.*
必要:否
回應語法
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- AnalyzeDocumentModelVersion
-
類型:字串
- Blocks
-
文本分析操作的結果。
類型:陣列Block對象
- DocumentMetadata
-
有關 Amazon Textract 處理的文檔的信息。
DocumentMetadata
會在 Amazon Textract 視頻操作的分頁響應的每一頁中返回。類型:DocumentMetadata 物件
- JobStatus
-
文字檢測任務的目前狀態。
類型:字串
有效值:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
如果響應被截斷,Amazon Textract 將返回此令牌。您可以在後續請求中使用此符記來檢索下一組文字檢測結果。
類型:字串
長度約束:長度下限為 1。長度上限為 255。
模式:
.*\S.*
- StatusMessage
-
如果無法完成檢測任務,則會傳回。包含有關發生什麼錯誤的説明。
類型:字串
- Warnings
-
文檔分析操作期間發生的警告列表。
類型:陣列Warning對象
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼:400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼:500
- InvalidJobIdException
-
將無效的作業標識符傳遞給GetDocumentAnalysis或GetDocumentAnalysis。
HTTP 狀態碼:400
- InvalidKMSKeyException
-
表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。
HTTP 狀態碼:400
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼:400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼:400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼:400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼:500
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: