文本检测和文档分析响应对象 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文本检测和文档分析响应对象

当 Amazon Textract 处理文档时,它会创建一个Block检测到或分析的文本的对象。每个区块都包含有关检测到的物品、物品所在位置的信息,以及 Amazon Textract 对处理准确性的信心。

文档由以下类型组成Block对象。

区块的内容取决于你调用的操作。如果调用其中一个文本检测操作,则返回检测到的文本的页面、行和单词。有关更多信息,请参阅 检测文本。如果调用其中一个文档分析操作,将返回有关检测到的页面、键值对、表格、选择元素和文本的信息。有关更多信息,请参阅 分析文档

一段时间Block对象字段在这两种类型的处理中都是通用的。例如,每个区块都有一个唯一的标识符。

有关演示如何使用的示例Block对象,请参阅教程.

文档布局

Amazon Textract 将文档的表示形式作为不同类型的Block在父对子关系或键值对中链接的对象。还会返回提供文档中页数的元数据。以下是典型的 JSON。Block类型的对象PAGE.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

文档由一个或多个创建PAGE数据块。每个页面都包含页面上检测到的主要项目的子块列表,例如文本行和表格行。有关更多信息,请参阅 页面

你可以确定类型Block通过检查对象BlockType字段中返回的子位置类型。

一个Block对象包含相关列表Block中的对象Relationships字段,这是一个数组Relationship对象。一个Relationships数组是 CHIER 类型或 VALUE 类型。类型为 CHIRD 的数组用于列出当前区块的子项目。例如,如果当前块的类型为 LINE,Relationships包含构成文本行的 WORD 块的 ID 列表。VALUE 类型的数组用于包含键/值对。您可以通过检查Type字段中的Relationship对象。

子块没有关于其父 Block 对象的信息。

对于显示的示例Block请参阅信息使用同步操作处理文档.

信心

Amazon Textract 操作将返回 Amazon Textract 对检测到的商品准确性的置信度的百分比。为了获得信心,请使用Confidence字段中的Block对象。值越大,则置信度越高。视情况而定,信心低的检测可能需要人员的视觉确认。

Geometry

除身份分析外,Amazon Textract 操作会返回有关文档页面上检测到的商品位置的位置信息。要获得位置,请使用Geometry字段中的Block对象。有关更多信息,请参阅 。文档页面上的物品位置