文本的行和單詞 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

文本的行和單詞

由 Amazon Textract 操作返回的檢測到的文本將返回到Block物件。這些對象表示在文檔頁面上檢測到的文本行或文本單詞。以下文本顯示了由多個單詞構成的兩行文本。

這是文字。

在兩個單獨的行。

檢測到的文本將在Text欄位Block物件。所以此BlockType字段確定文本是一行文本 (LINE) 還是單詞 (WORD)。一個是一或多個 ISO 基本拉丁腳本字符,不以空格分隔。一個是製表符分隔和連續單詞的字符串。

此外,Amazon Textract 將確定一段文本是手寫還是使用TextTypes欄位。這些分別作為手寫和印刷返回。

其他Block屬性對於所有塊類型(例如 ID、置信度和幾何信息)都是通用的。如需詳細資訊,請參閱 文本檢測和文檔分析響應對象

要僅檢測行和單詞,您可以使用DetectDocumentText或者StartDocumentTextDetection。如需詳細資訊,請參閱 偵測文字。要獲取檢測到的文本(行和單詞)以及有關它與文檔其他部分(如表格)相關的信息,您可以使用AnalyzeDocument或者StartDocumentAnalysis。如需詳細資訊,請參閱 分析文檔

PAGELINE,以及WORD塊在父-子關係中彼此相關。一個PAGE塊是所有LINE塊文檔頁面上的對象。因為 LINE 可以有一個或多個單詞,Relationships數組存儲組成文本行的子 WORD 塊的 ID。

下圖顯示Hello world.在文字Hello world. 你怎麼樣表示為Block物件。

以下為來自DetectDocumentText當句子Hello world. 你怎麼樣被檢測到。第一個示例是文檔頁面的 JSON。請注意孩子 ID 如何使您能夠在文檔中導航。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

以下是組成行「你好,世界」的 LINE 塊的 JSON:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

以下是 WORD 塊的 JSONHello last

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

最後的 JSON 是單詞的 WORD 塊世界。

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },