本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用異步操作處理文檔
Amazon Textract 可以檢測和分析 PDF 或 TIFF 格式的多頁文檔中的文本。這包括發票和收據。多頁文件處理是一種非同步操作。異步處理文檔對於處理大型多頁文檔非常有用。例如,處理超過 1,000 頁的 PDF 文件需要一段時間。異步處理 PDF 文件允許您的應用程序在等待過程完成的同時完成其他任務。
本節介紹瞭如何使用 Amazon Textract 異步檢測和分析多頁或單頁文檔上的文本。多頁文檔必須採用 PDF 或 TIFF 格式。使用異步操作處理的單頁文檔可以採用 JPEG、PNG、TIFF 或 PDF 格式。
您可以將 Amazon Textract 異步操作用於以下目的:
-
文本檢測 — 您可以檢測多頁文檔上的行和單詞。異步操作是StartDocumentTextDetection和GetDocumentTextDetection。如需詳細資訊,請參閱 偵測文字。
-
文本分析 — 您可以識別多頁文檔中檢測到的文本之間的關係。異步操作是StartDocumentAnalysis和GetDocumentAnalysis。如需詳細資訊,請參閱 分析文檔。
-
費用分析 — 您可以識別多頁發票和收據上的數據關係。Amazon Textract 將每張發票或多頁文檔的收據頁面視為單獨收據或發票。它不會保留多頁文檔的一個頁面到另一個頁面的上下文。異步操作是StartExpenseAnalysis和GetExpenseAnalysis。如需詳細資訊,請參閱 分析發票和收款。