文本檢測和文檔分析響應對象 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

文本檢測和文檔分析響應對象

當 Amazon Textract 處理文檔時,它會創建一個Block對象,用於檢測到或分析的文本。每個區塊都包含有關檢測到的商品的信息、其所在位置以及 Amazon Textract 對處理準確性的信心。

文檔由以下類型的Block物件。

塊的內容取決於您調用的操作。如果調用其中一個文本檢測操作,則返回檢測到的文本的頁面、行和單詞。如需詳細資訊,請參閱 偵測文字。如果調用其中一個文檔分析操作,則返回有關檢測到的頁面、鍵值對、表格、選擇元素和文本的信息。如需詳細資訊,請參閱 分析文檔

一些Block物件欄位對於這兩類處理方式是相同的。例如,每個塊都有一個唯一的標識符。

如需的範例,示範如何使用Block對象,請參閲教學課程

文檔佈局

Amazon Textract 返回一個文檔的表示形式,其中包含不同類型的Block在父子關係或鍵值對中鏈接的對象。還會返回提供文檔中頁數的元數據。以下為典型的Block類型 的物件PAGE

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

文件由一或多個PAGE區塊。每個頁面都包含頁面上檢測到的主要項目的子塊列表,例如文本行和表格。如需詳細資訊,請參閱 頁面

您可以判斷Block對象,方法是檢查BlockType欄位。

一個Block物件包含相關Block中的物件Relationships字段,它是一個Relationship物件。一個Relationships數組的類型為「子」或「值」類型。CIDER 類型的數組用於列出作為當前塊子項的項目。例如,如果目前塊類型為 LINE,Relationships包含組成文本行的 WORD 塊的 ID 列表。VALUE 類型的陣列用於包含鍵/值對。您可以通過檢查Type欄位Relationship物件。

子塊沒有關於其父塊對象的信息。

對於顯示Block信息,請參閲使用同步操作處理文檔

信賴度

Amazon Textract 操作會傳回 Amazon Textract 對於商品精確度的可信度百分比。要獲得信心,請使用Confidence欄位Block物件。值越大代表置信度越大。根據不同的場景,可信度低的檢測可能需要人類的視覺確認。

Geometry

Amazon Textract 操作(身份分析除外)會返回有關文檔頁面上檢測到商品位置的位置信息。若要獲取位置,請使用Geometry欄位Block物件。如需詳細資訊,請參閱「」文檔頁面上的項目位置