本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
分析輸入檔案,分析已偵測項目之間的關係。
返回的信息類型如下:
-
資料表單(金鑰值對)。有關資訊會以兩種方式傳回Block對象, 每個類型
KEY_VALUE_SET
:金鑰Block
對象和一個值Block
物件。例如:名稱: 安娜·席爾瓦·卡羅萊納州包含一個鍵和值。名稱:是關鍵。安娜·席爾瓦·卡羅萊納州均為值。 -
表格和表格單元格數據。資料表
Block
對象包含有關檢測到的表的信息。儲存格Block
對象返回表中的每個單元格。 -
文本的行和單詞。行
Block
物件包含一個或多個 WORDBlock
物件。返回文檔中檢測到的所有行和單詞(包括與FeatureTypes
。
選擇元素(如複選框和選項按鈕(單選按鈕)可以在表單數據和表格中檢測。選擇元素Block
對象包含有關選擇元素的信息,包括選擇狀態。
您可以選擇要執行的分析類型,方法是指定FeatureTypes
列表。
輸出返回在Block
物件。
AnalyzeDocument
均為同步操作。要異步分析文檔,請使用StartDocumentAnalysis。
如需詳細資訊,請參閱「」文件文字分析。
請求語法
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
請求參數
請求接受採用 JSON 格式的下列資料。
- Document
-
輸入文檔為 base64 編碼的字節或 Amazon S3 對象。如果您使用 AWS CLI 調用 Amazon Textract 操作,則無法傳遞圖像字節。文檔必須是 JPEG、PNG、PDF 或 TIFF 格式的圖像。
如果您使用 AWS 開發工具包調用 Amazon Textract,則可能不需要對使用
Bytes
欄位。類型:Document 物件
:必要 是
- FeatureTypes
-
要執行的分析類型的列表。將 TABLE 添加到列表以返回有關輸入文檔中檢測到的表的信息。添加表單以返回檢測到的表單數據。要執行這兩種類型的分析,請將表和表格添加到
FeatureTypes
。文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes
。類型:字串陣列
有效值:
TABLES | FORMS
:必要 是
- HumanLoopConfig
-
設置用於分析文檔的循環工作流的配置。
類型:HumanLoopConfig 物件
:必要 否
回應語法
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- AnalyzeDocumentModelVersion
-
用於分析文件的模型版本。
類型:字串
- Blocks
-
檢測和分析的項目
AnalyzeDocument
。類型:的陣列Block對象
- DocumentMetadata
-
有關已分析文檔的元數據。一個例子是頁數。
類型:DocumentMetadata 物件
- HumanLoopActivationOutput
-
顯示循環評估中人類的結果。
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼:400
- BadDocumentException
-
Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制。
HTTP 狀態碼:400
- DocumentTooLargeException
-
無法處理該文檔,因為它太大。用於同步操作的上限文件大小,10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。
HTTP 狀態碼:400
- HumanLoopQuotaExceededException
-
指示您已超過可用循環工作流中活動人工的上限數量
HTTP 狀態碼:400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼:500
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼:400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請配置對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼:400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼:400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼:500
- UnsupportedDocumentException
-
不支持輸入檔案的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 狀態碼:400
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: