頁面 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

頁面

文件包含一或多個頁面。一個Block類型 的物件PAGE存在於文檔的每個頁面。一個PAGE塊對象包含文檔頁面上檢測到的文本行、鍵值對和表的子 ID 的列表。

JSONPAGE塊結果類似如下。

{ "Geometry": .... "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", // Line - Hello, world. "82aedd57-187f-43dd-9eb1-4f312ca30042", // Line - How are you? "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" // Page identifier },

如果要對 PDF 格式的多頁文檔使用異步操作,則可以通過檢查Page欄位Block物件。掃描的圖像(JPEG、PNG、PDF 或 TIFF 格式的圖像)被視為單頁文檔,即使圖像上有多個文檔頁面。異步操作總是返回Page值為 1,用於掃描的圖像。

頁面總數會返回到Pages欄位DocumentMetadataDocumentMetadata返回的每個列表Block由 Amazon Textract 操作返回的對象。