AnalyzeDocument - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AnalyzeDocument

分析輸入檔案,分析已偵測項目之間的關係。

返回的信息類型如下:

  • 資料表單(金鑰值對)。有關資訊會以兩種方式傳回Block對象, 每個類型KEY_VALUE_SET:金鑰Block對象和一個值Block物件。例如:名稱: 安娜·席爾瓦·卡羅萊納州包含一個鍵和值。名稱:是關鍵。安娜·席爾瓦·卡羅萊納州均為值。

  • 表格和表格單元格數據。資料表Block對象包含有關檢測到的表的信息。儲存格Block對象返回表中的每個單元格。

  • 文本的行和單詞。行Block物件包含一個或多個 WORDBlock物件。返回文檔中檢測到的所有行和單詞(包括與FeatureTypes

選擇元素(如複選框和選項按鈕(單選按鈕)可以在表單數據和表格中檢測。選擇元素Block對象包含有關選擇元素的信息,包括選擇狀態。

您可以選擇要執行的分析類型,方法是指定FeatureTypes列表。

輸出返回在Block物件。

AnalyzeDocument均為同步操作。要異步分析文檔,請使用StartDocumentAnalysis

如需詳細資訊,請參閱「」文件文字分析

請求語法

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

請求參數

請求接受採用 JSON 格式的下列資料。

Document

輸入文檔為 base64 編碼的字節或 Amazon S3 對象。如果您使用 AWS CLI 調用 Amazon Textract 操作,則無法傳遞圖像字節。文檔必須是 JPEG、PNG、PDF 或 TIFF 格式的圖像。

如果您使用 AWS 開發工具包調用 Amazon Textract,則可能不需要對使用Bytes欄位。

類型:Document 物件

:必要 是

FeatureTypes

要執行的分析類型的列表。將 TABLE 添加到列表以返回有關輸入文檔中檢測到的表的信息。添加表單以返回檢測到的表單數據。要執行這兩種類型的分析,請將表和表格添加到FeatureTypes。文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes

類型:字串陣列

有效值: TABLES | FORMS

:必要 是

HumanLoopConfig

設置用於分析文檔的循環工作流的配置。

類型:HumanLoopConfig 物件

:必要 否

回應語法

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

AnalyzeDocumentModelVersion

用於分析文件的模型版本。

類型:字串

Blocks

檢測和分析的項目AnalyzeDocument

類型:的陣列Block對象

DocumentMetadata

有關已分析文檔的元數據。一個例子是頁數。

類型:DocumentMetadata 物件

HumanLoopActivationOutput

顯示循環評估中人類的結果。

類型:HumanLoopActivationOutput 物件

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼:400

BadDocumentException

Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制

HTTP 狀態碼:400

DocumentTooLargeException

無法處理該文檔,因為它太大。用於同步操作的上限文件大小,10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。

HTTP 狀態碼:400

HumanLoopQuotaExceededException

指示您已超過可用循環工作流中活動人工的上限數量

HTTP 狀態碼:400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼:500

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼:400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請配置對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼:400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼:400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼:500

UnsupportedDocumentException

不支持輸入檔案的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 狀態碼:400

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: