本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Textract 可以检测和分析 PDF 或 TIFF 格式的多页文档中的文本。这包括发票和收据。多页文档处理是一项异步操作。异步处理文档对于处理大型多页文档非常有用。例如,包含超过 1,000 页的 PDF 文件需要一段时间才能处理。异步处理 PDF 文件允许应用程序在等待过程完成的同时完成其他任务。
本节介绍了如何使用 Amazon Textract 异步检测和分析多页或单页文档中的文本。多页文档必须为 PDF 或 TIFF 格式。使用异步操作处理的单页文档可以采用 JPEG、PNG、TIFF 或 PDF 格式。
您可以将 Amazon Textract 异步操作用于以下目的:
-
文本检测 — 您可以检测多页文档中的行和单词。异步操作是StartDocumentTextDetection和GetDocumentTextDetection. 有关更多信息,请参阅 检测文本。
-
文本分析 — 您可以识别多页文档上检测到的文本之间的关系。异步操作是StartDocumentAnalysis和GetDocumentAnalysis. 有关更多信息,请参阅 分析文档。
-
费用分析 — 您可以识别多页发票和收据的数据关系。Amazon Textract 将每张发票或多页文档的收据页面视为单个收据或发票。它不会将多页文档的上下文从一个页面保留到另一页。异步操作是StartExpenseAnalysis和GetExpenseAnalysis. 有关更多信息,请参阅 分析发票和收据。