本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
页面
文档包含一个或多个页面。一个Block类型的对象PAGE
文档的每一页都存在。一个PAGE
block 对象包含在文档页面上检测到的文本行、键值对和表的子 ID 列表。
用于的 JSONPAGE
块看上去类似以下内容。
{ "Geometry": .... "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", // Line - Hello, world. "82aedd57-187f-43dd-9eb1-4f312ca30042", // Line - How are you? "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" // Page identifier },
如果对 PDF 格式的多页文档使用异步操作,则可以通过检查Page
字段中的Block
对象。扫描的图像(JPEG、PNG、PDF 或 TIFF 格式的图像)被视为单页文档,即使图像上有多个文档页面也是如此。异步操作始终返回Page
扫描图像的值为 1。
返回的页面总数将在Pages
的字段DocumentMetadata
.DocumentMetadata
与每个列表一起返回Block
Amazon Textract 操作返回的对象。