页面 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

页面

文档包含一个或多个页面。一个Block类型的对象PAGE文档的每一页都存在。一个PAGEblock 对象包含在文档页面上检测到的文本行、键值对和表的子 ID 列表。

用于的 JSONPAGE块看上去类似以下内容。

{ "Geometry": .... "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", // Line - Hello, world. "82aedd57-187f-43dd-9eb1-4f312ca30042", // Line - How are you? "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" // Page identifier },

如果对 PDF 格式的多页文档使用异步操作,则可以通过检查Page字段中的Block对象。扫描的图像(JPEG、PNG、PDF 或 TIFF 格式的图像)被视为单页文档,即使图像上有多个文档页面也是如此。异步操作始终返回Page扫描图像的值为 1。

返回的页面总数将在Pages的字段DocumentMetadata.DocumentMetadata与每个列表一起返回BlockAmazon Textract 操作返回的对象。