本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
异步自定义分析的输入
您可以向自定义异步分析作业输入多个文档。以下主题描述了您可以使用的输入文档类型。最大文件大小因输入文档的类型而异。
纯文本文档
以 UTF-8 格式的文本格式提供所有纯文本输入文档。下表列出了最大文件大小和其他指南。
注意
当所有输入文件均为纯文本时,这些限制适用。
描述 | 配额/指南 |
---|---|
每种文件格式一个文档的最大文件大小(自定义分类) | 1 字节 - 10 MB |
文档大小(自定义实体识别) | 1 字节 - 1 MB |
最大文件数,每个文件一个文档 | 1000000 |
最大行数,每行一个文档(适用于请求中的所有文件) | 1000000 |
文档语料库大小(所有文档合并为纯文本) | 1 字节 - 5 GB |
半结构化文档
半结构化文档包括原生 PDF 文档和 Word 文档。
下表列出了最大文件大小和其他指南。
描述 | 配额/指南 |
---|---|
文档大小 (PDF) | 1 字节 - 50 MB |
文档大小 (Docx) | 1 字节 - 5 MB |
最大文件数 | 500 |
PDF 或 Docx 文件的最大页数 | 100 |
文本提取后的文档语料库大小(纯文本,所有文件合并) | 1 字节 - 5 GB |
默认情况下,自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件,您可以覆盖此默认设置,然后使用 Amazon Textract 提取文本。请参阅设置文本提取选项。
图像文件和扫描的 PDF 文件
自定义分析支持 JPEG、PNG 和 TIFF 图像。
下表列出了图像的最大文件大小。扫描的 PDF 文件的最大大小与原生 PDF 文件的最大大小相同。
描述 | 配额/指南 |
---|---|
图像尺寸(JPG 或 PNG) | 1 字节 - 10 MB |
图像尺寸 (TIFF) | 1 字节 - 10 MB。最多一页。 |
有关图像的其他信息,请参阅 图像的最佳实践。
默认情况下,Amazon Comprehend 使用 Amazon Textract DetectDocumentText
API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument
API 操作。请参阅设置文本提取选项。
Amazon Textract 输出 JSON 文件
对于自定义实体识别,而不是自定义分类,您可以提供 Amazon Textract AnalyzeDocument
API 操作的输出文件作为分析作业的输入。