表单数据(键值对) - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表单数据(键值对)

Amazon Textract 可以将表单数据从文档中提取为键值对。例如,在以下文本中,Amazon Textract 可以识别密钥 (名称:) 和一个值 (Ana Carolina)。

名称:Ana Carolina

检测到的键值对将返回为Block来自的响应中的对象AnalyzeDocumentGetDocumentAnalysis. 您可以使用FeatureTypes输入参数来检索关于键值对、表或两者的信息。仅对于键值对,请使用值FORMS. 有关示例,请参阅 从表单文档中提取键值对。有关文档如何表示的一般信息,请参阅Block对象,请参阅文本检测和文档分析响应对象.

类型为 KEY_VALUE_SET 的块对象是 KEY_VALUE_SET 对象的容器,用于存储文档中检测到的链接文本项目的信息的 KEY 或 您可以使用EntityType属性来确定块是 KEY 还是 VALUE。

  • 一个密钥对象包含有关链接文本键的信息。例如,名称:. KEY 区块有两个关系列表。VALUE 类型的关系是一个列表,其中包含与该密钥关联的 VALUE 块的 ID。CHIRD 类型的关系是组成密钥文本的 WORD 块的 ID 列表。

  • 一个对象包含有关键相关文本的信息。在上述示例中,Ana Carolina是键的值名称:. VALUE 块与识别 WORD 块的子块列表有关系。每个 WORD 块都包含组成该值文本的一个单词。一个VALUE对象还可以包含有关选定元素的信息。有关更多信息,请参阅 选择元素

KEY_VALUE_SET 的每个实例Block对象是 PAGE 的子项Block对应于当前页面的对象。

下图显示键值对的方式。名称:Ana Carolina代表为Block对象。

以下示例演示键值对的方式。名称:Ana Carolina由 JSON 表示。

PAGE 块有类型的 CHILD 块KEY_VALUE_SET针对文档中检测到的每个 KEY 和 VALUE 块。

{ "Geometry": .... "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", // Key - Name: "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" // Value - Ana Caroline ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" // Page identifier },

以下 JSON 显示了 KEY 区块(52be1777-53f7-42f6-a7cf-6d09bdc15a30)与价值区块(7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c)有关系。它还有一个字块的子块(c734fca6-c4c4-415c-b6c1-30f7510b72ee),其中包含密钥的文本(名称:)。

{ "Relationships": [ { "Type": "VALUE", "Ids": [ "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" // Value identifier ] }, { "Type": "CHILD", "Ids": [ "c734fca6-c4c4-415c-b6c1-30f7510b72ee" // Name: ] } ], "Confidence": 51.55965805053711, "Geometry": ...., "BlockType": "KEY_VALUE_SET", "EntityTypes": [ "KEY" ], "Id": "52be1777-53f7-42f6-a7cf-6d09bdc15a30" //Key identifier },

下面的 JSON 显示了 VALUE 块 7ca7ca6-00ef-4cda-b1aa-5571dfed1a7c 有一个组成该值文本的 WORD 块 ID 的子列表(安娜卡罗纳)。

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "db553509-64ef-4ecf-ad3c-bea62cc1cd8a", // Ana "e5d7646c-eaa2-413a-95ad-f4ae19f53ef3" // Carolina ] } ], "Confidence": 51.55965805053711, "Geometry": ...., "BlockType": "KEY_VALUE_SET", "EntityTypes": [ "VALUE" ], "Id": "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" // Value identifier }

下面的 JSON 显示了Block单词的对象名称:安娜, 和卡罗纳.

{ "Geometry": {...}, "Text": "Name:", "TextType": "PRINTED". "BlockType": "WORD", "Confidence": 99.56285858154297, "Id": "c734fca6-c4c4-415c-b6c1-30f7510b72ee" }, { "Geometry": {...}, "Text": "Ana", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.52057647705078, "Id": "db553509-64ef-4ecf-ad3c-bea62cc1cd8a" }, { "Geometry": {...}, "Text": "Carolina", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.84207916259766, "Id": "e5d7646c-eaa2-413a-95ad-f4ae19f53ef3" },