本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
文档类型或格式
Amazon Kendra 支持常用的文档类型或格式PDF,例如HTML、 PowerPoint、Word 等。一个索引可以包含多种文档格式。
Amazon Kendra 提取文档内部的内容以使文档可搜索。解析文档的方式是为了优化对提取的文本和文档中任何表格内容(HTML表格)的搜索。这意味着将文档结构化为用于搜索的字段或属性。文档元数据(例如上次修改日期)可能是有用的搜索字段。
可以将文档组织成行和列。例如,每个文档是一行,每个文档字段/属性(例如标题和正文内容)都是一列。例如,如果您使用数据库作为数据来源,则应将数据结构化或组织成行和列。
您可以通过以下方式将文档添加到索引中:
如果要添加FAQ文件,则使用CreateFaqAPI来添加存储在 Amazon S3 桶。您可以在基本CSV格式、标题中包含海关字段/属性的CSV格式和包含自定义字段的JSON格式之间进行选择。默认格式为基本格式CSV。
以下内容提供了有关每种支持的文档格式以及如何使用的信息 Amazon Kendra 在为文档编制索引时会处理每种格式。
文档格式 | 视为 | 如何处理文档 | 原始结构 |
---|---|---|---|
便携式文档格式 (PDF) | HTML | 转换为HTML,然后提取内容。 | 非结构化 |
HyperText 标记语言 () HTML | HTML | HTML标签会被过滤掉以提取内容。内容必须介于主 HTML 起始标签和结束标签(<HTML>content</HTML> )之间。 |
半结构化 |
可扩展标记语言 () XML | XML | XML标签会被过滤掉以提取内容。 | 半结构化 |
可扩展样式表语言转换 () XSLT | XSLT | 标签会被过滤掉以提取内容。 | 半结构化 |
MarkDown (医学博士) | 纯文本 | 提取内容时包含 MarkDown 语法。 | 半结构化 |
逗号分隔值 () CSV | CSV | 从每个单元格中提取的内容,将单个文件视为单个文档结果。 | 为FAQ文件结构化,否则为半结构化 |
微软 Excel(XLS和XLSX) | XLS和 XLSX | 从每个单元格中提取的内容,将单个文件视为单个文档结果。 | 半结构化 |
JavaScript 物体标记 (JSON) | 纯文本 | 提取内容时包含JSON语法。 | 半结构化 |
富文本格式 (RTF) | RTF | RTF语法被过滤掉以提取内容。 | 半结构化 |
微软 PowerPoint (PPT) | PPT, PPTX | 仅从 PowerPoint 幻灯片中提取文本内容进行搜索。不会提取图像和其他内容。 | 非结构化 |
Microsoft Word | DOC, DOCX | 仅从 Word 页面中提取文本内容进行搜索。不会提取图像和其他内容。 | 非结构化 |
纯文本 (TXT) | TXT | 提取文本文档中的所有文本。 | 非结构化 |