异步自定义分析的输入

您可以向自定义异步分析任务输入多个文档。以下主题描述了您可以使用的输入文档类型。最大文件大小因输入文档的类型而异。

纯文本文档

以文本形式提供所有纯文本输入文档。 UTF-8-formatted 下表列出了最大文件大小和其他指南。

当所有输入文件均为纯文本时，这些限制适用。

Semi-structured 文档包括原生 PDF 文档和 Word 文档。

下表列出了最大文件大小和其他指南。

默认情况下，自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件，您可以覆盖此默认设置，然后使用 Amazon Textract 提取文本。请参阅设置文本提取选项。

自定义分析支持 JPEG、PNG 和 TIFF 图像。

下表列出了图像的最大文件大小。扫描的 PDF 文件的最大大小与原生 PDF 文件的最大大小相同。

说明	Quota/Guideline
图像尺寸（JPG 或 PNG）	1 字节 - 10 MB
图像尺寸 (TIFF)	1 字节 - 10 MB。最多一页。

有关图像的其他信息，请参阅图像的最佳实践。

默认情况下，Amazon Comprehend 使用 Amazon Textract DetectDocumentText API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument API 操作。请参阅设置文本提取选项。

对于自定义实体识别，而不是自定义分类，您可以提供 Amazon Textract AnalyzeDocument API 操作的输出文件作为分析任务的输入。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

实时分析输入

设置文本提取选项