文档类型或格式 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文档类型或格式

Amazon Kendra 支持常用的文档类型或格式PDF,例如HTML、 PowerPoint、Word 等。一个索引可以包含多种文档格式。

Amazon Kendra 提取文档内部的内容以使文档可搜索。解析文档的方式是为了优化对提取的文本和文档中任何表格内容(HTML表格)的搜索。这意味着将文档结构化为用于搜索的字段或属性。文档元数据(例如上次修改日期)可能是有用的搜索字段。

可以将文档组织成行和列。例如,每个文档是一行,每个文档字段/属性(例如标题和正文内容)都是一列。例如,如果您使用数据库作为数据来源,则应将数据结构化或组织成行和列。

您可以通过以下方式将文档添加到索引中:

如果要添加FAQ文件,则使用CreateFaqAPI来添加存储在 Amazon S3 桶。您可以在基本CSV格式、标题中包含海关字段/属性的CSV格式和包含自定义字段的JSON格式之间进行选择。默认格式为基本格式CSV。

以下内容提供了有关每种支持的文档格式以及如何使用的信息 Amazon Kendra 在为文档编制索引时会处理每种格式。

文档格式 视为 如何处理文档 原始结构
便携式文档格式 (PDF) HTML 转换为HTML,然后提取内容。 非结构化
HyperText 标记语言 () HTML HTML HTML标签会被过滤掉以提取内容。内容必须介于主 HTML 起始标签和结束标签(<HTML>content</HTML>)之间。 半结构化
可扩展标记语言 () XML XML XML标签会被过滤掉以提取内容。 半结构化
可扩展样式表语言转换 () XSLT XSLT 标签会被过滤掉以提取内容。 半结构化
MarkDown (医学博士) 纯文本 提取内容时包含 MarkDown 语法。 半结构化
逗号分隔值 () CSV CSV 从每个单元格中提取的内容,将单个文件视为单个文档结果。 为FAQ文件结构化,否则为半结构化
微软 Excel(XLS和XLSX) XLS和 XLSX 从每个单元格中提取的内容,将单个文件视为单个文档结果。 半结构化
JavaScript 物体标记 (JSON) 纯文本 提取内容时包含JSON语法。 半结构化
富文本格式 (RTF) RTF RTF语法被过滤掉以提取内容。 半结构化
微软 PowerPoint (PPT) PPT, PPTX 仅从 PowerPoint 幻灯片中提取文本内容进行搜索。不会提取图像和其他内容。 非结构化
Microsoft Word DOC, DOCX 仅从 Word 页面中提取文本内容进行搜索。不会提取图像和其他内容。 非结构化
纯文本 (TXT) TXT 提取文本文档中的所有文本。 非结构化