本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
文档处理
Amazon Comprehend 支持一步完成自定义分类和自定义实体识别的文档处理。例如,您可以将纯文本文档和半结构化文档(例如 PDF 文档、Microsoft Word 文档和图像)混合输入到自定义分析作业中。
对于需要提取文本的输入文件,Amazon Comprehend 会在运行分析之前自动执行文本提取。为了提取文本内容,Amazon Comprehend 使用内部解析器来处理原生半结构化文档,并使用 Amazon Textract API 来处理图像和扫描文档。
除了亚太地区(东京 AWS GovCloud )和(美国西部)仅支持纯文本模型进行自定义分类外,每个亚马逊Comprehend都提供 支持的区域 Amazon Comprehend文档处理功能。
以下主题详细介绍了 Amazon Comprehend 支持进行自定义分析的输入文档类型。