本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
DetectDocumentText
檢測輸入文檔中的文本。Amazon Textract 可以檢測文本行和構成一行文本的單詞。輸入文檔必須是 JPEG、PNG、PDF 或 TIFF 格式的圖像。DetectDocumentText
返回一個數組中檢測到的文本Block物件。
每個文檔頁面都有一個關聯的Block
類型為頁面。每頁Block
LINE 的父物件Block
對象,表示頁面上檢測到的文本行。一條線Block
對象是構成該行的每個單詞的父項。單詞表示為Block
類型為 WORD 的對象。
DetectDocumentText
是同步操作。要異步分析文檔,請使用StartDocumentTextDetection。
如需詳細資訊,請參閱「」文字偵測。
請求語法
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
請求參數
請求接受採用 JSON 格式的下列資料。
回應語法
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
回應元素
如果動作成功,則服務傳回 HTTP 200 回應。
服務會傳回下列 JSON 格式的資料。
- Blocks
-
陣列
Block
對象,其中包含在文檔中檢測到的文本。類型:的陣列Block對象
- DetectDocumentTextModelVersion
-
類型:字串
- DocumentMetadata
-
有關文檔的元數據。它包含在文檔中檢測到的頁數。
類型:DocumentMetadata 物件
錯誤
- AccessDeniedException
-
您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。
HTTP 狀態碼::400
- BadDocumentException
-
Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制。
HTTP 狀態碼::400
- DocumentTooLargeException
-
無法處理該文檔,因為它太大。同步操作的文件大小上限為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。
HTTP 狀態碼::400
- InternalServerError
-
Amazon Textract 發生服務問題。請再次嘗試呼叫。
HTTP 狀態碼::500
- InvalidParameterException
-
輸入參數違反限制。例如,在同步操作中,
InvalidParameterException
異常發生時,S3Object
或者Bytes
值提供在Document
請求參數。請驗證您的參數,然後再次呼叫 API 操作。HTTP 狀態碼::400
- InvalidS3ObjectException
-
Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請配置對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3
HTTP 狀態碼::400
- ProvisionedThroughputExceededException
-
請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。
HTTP 狀態碼::400
- ThrottlingException
-
Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。
HTTP 狀態碼::500
- UnsupportedDocumentException
-
不支持輸入文件的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 狀態碼::400
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: