分析文檔 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

分析文檔

Amazon Textract 分析文檔和表單中檢測到的文本之間的關係。Amazon Textract 分析操作返回三類文檔提取 — 文本、表單和表格。發票和收據的分析通過不同的流程處理,有關詳細信息,請參閲分析發票和收款

文字提取

從文檔中提取的原始文本。如需詳細資訊,請參閱「」文本的行和單詞

表單提取

表單數據鏈接到從文檔中提取的文本項。Amazon Textract 將表單數據表示為金鑰/值對。在以下示例中,Amazon Textract 檢測到的文本行之一是名稱: Doe。Amazon Textract 還標識了一個密鑰(名稱:)和一個值(Doe。如需詳細資訊,請參閱「」表單數據(鍵值對)

名稱: Doe

地址:123 任何街, 安城, 美國

出生日期:12-26-1980

鍵值對還用於表示從表單中提取的複選框或選項按鈕(單選按鈕)。

男性:

如需詳細資訊,請參閱「」選擇元素

表格提取

Amazon Textract 可以提取表格、表格單元格和表格單元格中的項目,並且可以編程以返回 JSON、.csv 或 .txt 文件中的結果。

名稱 Address

安娜·卡羅萊納州

123 任何城市

如需更多詳細資訊,請參閱資料表。也可以從表格中提取選擇元素。如需詳細資訊,請參閱「」選擇元素

對於分析商品,Amazon Textract 以多個方式返回以下內容Block物件:

  • 檢測到的文本的行和單詞

  • 檢測到的項目的內容

  • 檢測到的項目之間的關係

  • 檢測到項目的頁面

  • 項目在文檔頁面上的位置

您可以使用同步或異步操作來分析文檔中的文本。要同步分析文本,請使用AnalyzeDocument操作,並將文檔作為輸入傳遞。AnalyzeDocument返回整組結果。如需詳細資訊,請參閱 使用 Amazon Textract 分析文檔文本

若要異步檢測文字,請使用StartDocumentAnalysis以開始處理。若要獲取結果,請調用GetDocumentAnalysis。結果將在一個或多個響應中返回GetDocumentAnalysis。如需詳細資訊和範例,請參閱 檢測或分析多頁文檔中的文本

要指定要執行的分析類型,可以使用FeatureTypes列表輸入參數。將 TABLE 添加到列表以返回有關在輸入文檔中檢測到的表的信息,例如,表格單元格、單元格文本和單元格中的選擇元素。添加 FORM 以返回單詞關係,例如鍵值對和選擇元素。要執行這兩種類型的分析,請將表和表格添加到FeatureTypes

在文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes