本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Block
一个Block
表示在彼此接近的一组像素内在文档中识别的项目。返回的信息在Block
对象取决于操作的类型。在文档的文本检测中(例如DetectDocumentText),您可以获得有关检测到的单词和文本行的信息。在文本分析中(例如AnalyzeDocument),您还可以获取有关文档中检测到的字段、表格和选择元素的信息。
数组Block
对象由同步操作和异步操作返回。在同步操作中,例如DetectDocumentText,数组Block
对象是整个结果集。在异步操作中,例如GetDocumentAnalysis,数组将通过一个或多个响应返回。
有关更多信息,请参阅 。Amazon Textract 的工作原理.
目录
- BlockType
-
已识别的文本项目的类型。在文本检测操作中,返回以下类型:
-
页-包含 LINE 列表
Block
在文档页面上检测到的对象。 -
单词-在文档页面上检测到的单词。单词 是一个或多个 ISO 基本拉丁字母字符,不用空格分隔。
-
线-在文档页面上检测到的制表符分隔的连续单词的字符串。
在文本分析操作中,返回以下类型:
-
页-包含孩子列表
Block
在文档页面上检测到的对象。 -
KEY_VALUE_SET-存储 KEY 和 VALUE
Block
在文档页面上检测到的链接文本的对象。使用EntityType
字段来确定 KEY_VALUE_SET 对象是否为 KEYBlock
对象或 VALUEBlock
对象。 -
单词-在文档页面上检测到的单词。单词 是一个或多个 ISO 基本拉丁字母字符,不用空格分隔。
-
线-在文档页面上检测到的制表符分隔的连续单词的字符串。
-
桌子-在文档页面上检测到的表格。表格是基于网格的信息,包含两行或多列,单元格跨度为一行和一列。
-
细胞-检测到的桌子里的一个细胞。单元格是包含单元格中文本的块的父项。
-
选择_元素-在文档页面上检测到的选择元素,例如选项按钮(单选按钮)或复选框。使用的值
SelectionStatus
以确定选择元素的状态。
类型: 字符串
有效值:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
:必需 否
-
- ColumnIndex
-
显示表格单元格的列。第一列位置是 1。
ColumnIndex
不是由DetectDocumentText
和GetDocumentTextDetection
.类型: 整数
有效范围:最小值为 0。
:必需 否
- ColumnSpan
-
表格单元格跨越的列数。目前,该值始终为 1,即使跨越的列数大于 1。
ColumnSpan
不是由DetectDocumentText
和GetDocumentTextDetection
.类型: 整数
有效范围:最小值为 0。
:必需 否
- Confidence
-
Amazon Textract 对已识别文本的准确性以及几何结构的准确性指向识别文本周围的信心得分。
类型: Float
有效范围:最小值为 0。最大值为 100。
:必需 否
- EntityTypes
-
实体的类型。可能返回以下内容:
-
密钥-文档上字段的标识符。
-
值-字段文本。
EntityTypes
不是由DetectDocumentText
和GetDocumentTextDetection
.类型: 字符串数组
有效值:
KEY | VALUE
:必需 否
-
- Geometry
-
图像上可识别的文本的位置。它包括围绕文本的轴对齐、粗糙的边界框以及一个用于更准确的空间信息的精细多边形。
类型:Geometry 对象
:必需 否
- Id
-
识别文本的标识符。该标识符只对于单个操作是唯一的。
类型: 字符串
模式:
.*\S.*
:必需 否
- Page
-
检测到块的页面。
Page
是由异步操作返回的。仅对于 PDF 或 TIFF 格式的多页文档返回大于 1 的页面值。扫描的图像 (JPEG/PNG),即使它包含多个文档页面,也被视为单页文档。的价值Page
始终为 1。同步操作不会返回Page
因为每个输入文档都被视为单页文档。类型: 整数
有效范围:最小值为 0。
:必需 否
- Relationships
-
当前区块的子区块的列表。例如,LINE 对象都有作为文本行一部分的每个 WORD 块的子块。列表中没有关系不存在的关系对象,例如当前区块没有子块时。列表大小可以是以下内容:
-
0-该区块没有子方块。
-
1-该区块有子方块。
类型: 数组Relationship对象
:必需 否
-
- RowIndex
-
表格单元格所在的行。第一行位置是 1。
RowIndex
不是由DetectDocumentText
和GetDocumentTextDetection
.类型: 整数
有效范围:最小值为 0。
:必需 否
- RowSpan
-
表格单元格跨越的行数。目前,该值始终为 1,即使跨越的行数大于 1。
RowSpan
不是由DetectDocumentText
和GetDocumentTextDetection
.类型: 整数
有效范围:最小值为 0。
:必需 否
- SelectionStatus
-
选择元素的选择状态,例如选项按钮或复选框。
类型: 字符串
有效值:
SELECTED | NOT_SELECTED
:必需 否
- Text
-
Amazon Textract 识别的单词或一行文本。
类型: 字符串
:必需 否
- TextType
-
Amazon Textract 检测到的文本类型。可以检查手写文本和印刷文本。
类型: 字符串
有效值:
HANDWRITING | PRINTED
:必需 否
另请参阅
有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: