Block - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Block

一個Block表示在文檔中識別的一組相互接近的像素內的項目。返回的信息在Block物件取決於操作類型。在文檔的文本檢測中(例如DetectDocumentText),您可以獲得有關檢測到的單詞和文本行的信息。在文本分析中(例如AnalyzeDocument),您還可以獲取有關文檔中檢測到的字段、表格和選擇元素的信息。

陣列Block對象由同步操作和異步操作返回。在同步操作中,例如DetectDocumentText,陣列Block對象是整個結果集。在異步操作中,例如GetDocumentAnalysis時,數組將通過一個或多個響應返回。

如需詳細資訊,請參閱「」Amazon Textract 運作方式

內容

BlockType

已識別的文本項的類型。在文本檢測操作中,返回以下類型:

  • 頁面-包含線的清單Block在文檔頁面上檢測到的對象。

  • -在文檔頁面上檢測到的單詞。單字是一或多個 ISO 基本拉丁指令碼字元,不以空格分隔。

  • -在文檔頁面上檢測到的製表符分隔的連續單詞的字符串。

在文本分析操作中,返回以下類型:

  • 頁面-包含子項目Block在文檔頁面上檢測到的對象。

  • 鍵值集-存儲密鑰和值Block對象,用於在文檔頁面上檢測到的鏈接文本。使用EntityType字段來確定鍵值集對象是否為密鑰Block對象或值Block物件。

  • -在文檔頁面上檢測到的單詞。單字是一或多個 ISO 基本拉丁指令碼字元,不以空格分隔。

  • -在文檔頁面上檢測到的製表符分隔的連續單詞的字符串。

  • -在文檔頁面上檢測到的表。表是具有兩個或多個行或列的基於網格的信息,單元格跨度包含一行和一列。

  • 細胞-檢測到的表中的單元格。單元格是包含單元格中文本的塊的父項。

  • 選擇元素-選擇元素,例如選項按鈕(單選按鈕)或在文檔頁面上檢測到的複選框。使用SelectionStatus,以判斷選取元素的狀態。

類型:字串

有效值: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

:必要 否

ColumnIndex

在其中顯示表單元格的列。第一列位置為 1。ColumnIndex不返回DetectDocumentTextGetDocumentTextDetection

類型:整數

有效範圍:最小值為 0。

:必要 否

ColumnSpan

表單元格跨越的列數。目前,此值始終為 1,即使跨越的列數大於 1。ColumnSpan不返回DetectDocumentTextGetDocumentTextDetection

類型:整數

有效範圍:最小值為 0。

:必要 否

Confidence

Amazon Textract 在識別文本的準確性以及識別文本周圍幾何點的準確性方面的置信度得分。

類型:Float

有效範圍:最小值為 0。最大值為 100。

:必要 否

EntityTypes

實體類型。可能返回以下內容:

  • -文檔上某個字段的標識符。

  • -字段文本。

EntityTypes不返回DetectDocumentTextGetDocumentTextDetection

類型:字串陣列

有效值: KEY | VALUE

:必要 否

Geometry

已識別文字在圖像上的位置。它包括一個圍繞文本的軸對齊粗邊界框,以及一個細粒度的多邊形,以獲得更精確的空間信息。

類型:Geometry 物件

:必要 否

Id

識別文本的標識符。標識符僅對於單個操作是唯一的。

類型:字串

模式:.*\S.*

:必要 否

Page

檢測到塊的頁面。Page由異步操作返回。僅為 PDF 或 TIFF 格式的多頁文檔返回大於 1 的頁面值。掃描的圖像 (JPEG/PNG),即使它包含多個文檔頁面,也被視為單頁文檔。的值為Page一律為 1。同步操作不返回Page因為每個輸入文檔都被視為單頁文檔。

類型:整數

有效範圍:最小值為 0。

:必要 否

Relationships

當前塊子塊的列表。例如,LINE 對象具有作為文本行一部分的每個 WORD 塊的子塊。列表中沒有不存在的關係對象,例如當前塊沒有子塊時。列表大小可以如下:

  • 0-塊沒有子塊。

  • 1-該塊具有子塊。

類型:陣列Relationship對象

:必要 否

RowIndex

表單元格所在的行。第一行位置為 1。RowIndex不返回DetectDocumentTextGetDocumentTextDetection

類型:整數

有效範圍:最小值為 0。

:必要 否

RowSpan

表單元格跨越的行數。目前,此值始終為 1,即使跨越的行數大於 1。RowSpan不返回DetectDocumentTextGetDocumentTextDetection

類型:整數

有效範圍:最小值為 0。

:必要 否

SelectionStatus

選擇元素的選擇狀態,例如選項按鈕或複選框。

類型:字串

有效值: SELECTED | NOT_SELECTED

:必要 否

Text

Amazon Textract 識別的單詞或文本行。

類型:字串

:必要 否

TextType

Amazon Textract 檢測到的文本類型。可以檢查是否有手寫文字和打印文本。

類型:字串

有效值: HANDWRITING | PRINTED

:必要 否

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: