本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Block
一個Block
表示在文檔中識別的一組相互接近的像素內的項目。返回的信息在Block
物件取決於操作類型。在文檔的文本檢測中(例如DetectDocumentText),您可以獲得有關檢測到的單詞和文本行的信息。在文本分析中(例如AnalyzeDocument),您還可以獲取有關文檔中檢測到的字段、表格和選擇元素的信息。
陣列Block
對象由同步操作和異步操作返回。在同步操作中,例如DetectDocumentText,陣列Block
對象是整個結果集。在異步操作中,例如GetDocumentAnalysis時,數組將通過一個或多個響應返回。
如需詳細資訊,請參閱「」Amazon Textract 運作方式。
內容
- BlockType
-
已識別的文本項的類型。在文本檢測操作中,返回以下類型:
-
頁面-包含線的清單
Block
在文檔頁面上檢測到的對象。 -
字-在文檔頁面上檢測到的單詞。單字是一或多個 ISO 基本拉丁指令碼字元,不以空格分隔。
-
線-在文檔頁面上檢測到的製表符分隔的連續單詞的字符串。
在文本分析操作中,返回以下類型:
-
頁面-包含子項目
Block
在文檔頁面上檢測到的對象。 -
鍵值集-存儲密鑰和值
Block
對象,用於在文檔頁面上檢測到的鏈接文本。使用EntityType
字段來確定鍵值集對象是否為密鑰Block
對象或值Block
物件。 -
字-在文檔頁面上檢測到的單詞。單字是一或多個 ISO 基本拉丁指令碼字元,不以空格分隔。
-
線-在文檔頁面上檢測到的製表符分隔的連續單詞的字符串。
-
表-在文檔頁面上檢測到的表。表是具有兩個或多個行或列的基於網格的信息,單元格跨度包含一行和一列。
-
細胞-檢測到的表中的單元格。單元格是包含單元格中文本的塊的父項。
-
選擇元素-選擇元素,例如選項按鈕(單選按鈕)或在文檔頁面上檢測到的複選框。使用
SelectionStatus
,以判斷選取元素的狀態。
類型:字串
有效值:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
:必要 否
-
- ColumnIndex
-
在其中顯示表單元格的列。第一列位置為 1。
ColumnIndex
不返回DetectDocumentText
和GetDocumentTextDetection
。類型:整數
有效範圍:最小值為 0。
:必要 否
- ColumnSpan
-
表單元格跨越的列數。目前,此值始終為 1,即使跨越的列數大於 1。
ColumnSpan
不返回DetectDocumentText
和GetDocumentTextDetection
。類型:整數
有效範圍:最小值為 0。
:必要 否
- Confidence
-
Amazon Textract 在識別文本的準確性以及識別文本周圍幾何點的準確性方面的置信度得分。
類型:Float
有效範圍:最小值為 0。最大值為 100。
:必要 否
- EntityTypes
-
實體類型。可能返回以下內容:
-
鍵-文檔上某個字段的標識符。
-
值-字段文本。
EntityTypes
不返回DetectDocumentText
和GetDocumentTextDetection
。類型:字串陣列
有效值:
KEY | VALUE
:必要 否
-
- Geometry
-
已識別文字在圖像上的位置。它包括一個圍繞文本的軸對齊粗邊界框,以及一個細粒度的多邊形,以獲得更精確的空間信息。
類型:Geometry 物件
:必要 否
- Id
-
識別文本的標識符。標識符僅對於單個操作是唯一的。
類型:字串
模式:
.*\S.*
:必要 否
- Page
-
檢測到塊的頁面。
Page
由異步操作返回。僅為 PDF 或 TIFF 格式的多頁文檔返回大於 1 的頁面值。掃描的圖像 (JPEG/PNG),即使它包含多個文檔頁面,也被視為單頁文檔。的值為Page
一律為 1。同步操作不返回Page
因為每個輸入文檔都被視為單頁文檔。類型:整數
有效範圍:最小值為 0。
:必要 否
- Relationships
-
當前塊子塊的列表。例如,LINE 對象具有作為文本行一部分的每個 WORD 塊的子塊。列表中沒有不存在的關係對象,例如當前塊沒有子塊時。列表大小可以如下:
-
0-塊沒有子塊。
-
1-該塊具有子塊。
類型:陣列Relationship對象
:必要 否
-
- RowIndex
-
表單元格所在的行。第一行位置為 1。
RowIndex
不返回DetectDocumentText
和GetDocumentTextDetection
。類型:整數
有效範圍:最小值為 0。
:必要 否
- RowSpan
-
表單元格跨越的行數。目前,此值始終為 1,即使跨越的行數大於 1。
RowSpan
不返回DetectDocumentText
和GetDocumentTextDetection
。類型:整數
有效範圍:最小值為 0。
:必要 否
- SelectionStatus
-
選擇元素的選擇狀態,例如選項按鈕或複選框。
類型:字串
有效值:
SELECTED | NOT_SELECTED
:必要 否
- Text
-
Amazon Textract 識別的單詞或文本行。
類型:字串
:必要 否
- TextType
-
Amazon Textract 檢測到的文本類型。可以檢查是否有手寫文字和打印文本。
類型:字串
有效值:
HANDWRITING | PRINTED
:必要 否
另請參閱
如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: