DetectDocumentText - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

DetectDocumentText

檢測輸入文檔中的文本。Amazon Textract 可以檢測文本行和構成一行文本的單詞。輸入文檔必須是 JPEG、PNG、PDF 或 TIFF 格式的圖像。DetectDocumentText返回一個數組中檢測到的文本Block物件。

每個文檔頁面都有一個關聯的Block類型為頁面。每頁BlockLINE 的父物件Block對象,表示頁面上檢測到的文本行。一條線Block對象是構成該行的每個單詞的父項。單詞表示為Block類型為 WORD 的對象。

DetectDocumentText是同步操作。要異步分析文檔,請使用StartDocumentTextDetection

如需詳細資訊,請參閱「」文字偵測

請求語法

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

請求參數

請求接受採用 JSON 格式的下列資料。

Document

輸入文檔為 base64 編碼的字節或 Amazon S3 對象。如果您使用 AWS CLI 調用 Amazon Textract 操作,則無法傳遞圖像字節。文檔必須是 JPEG 或 PNG 格式的圖像。

如果您使用 AWS 開發工具包調用 Amazon Textract,則可能不需要對使用Bytes欄位。

類型:Document 物件

:必要 是

回應語法

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Blocks

陣列Block對象,其中包含在文檔中檢測到的文本。

類型:的陣列Block對象

DetectDocumentTextModelVersion

類型:字串

DocumentMetadata

有關文檔的元數據。它包含在文檔中檢測到的頁數。

類型:DocumentMetadata 物件

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼::400

BadDocumentException

Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制

HTTP 狀態碼::400

DocumentTooLargeException

無法處理該文檔,因為它太大。同步操作的文件大小上限為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。

HTTP 狀態碼::400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼::500

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼::400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請配置對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼::400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼::400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼::500

UnsupportedDocumentException

不支持輸入文件的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 狀態碼::400

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: