本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建数据来源连接器
您可以为创建数据源连接器 Amazon Kendra 连接您的文档并为其编制索引。 Amazon Kendra 可以连接到 Microsoft SharePoint、Google 云端硬盘和许多其他提供商。当你创建数据源连接器时,你给出 Amazon Kendra 连接到源存储库所需的配置信息。与直接向索引添加文档不同,您可以定期扫描数据来源以更新索引。
例如,假设你有一个税务文件存储库存储在 Amazon S3 桶。不时更改现有文档并将新文档添加到存储库中。如果您将存储库添加到 Amazon Kendra 作为数据源,您可以通过在数据源和索引之间设置定期同步来使索引保持最新状态。
您可以选择使用控制台或手动更新索引StartDataSourceSyncJobAPI。否则,您可以设置一个计划来更新索引并使其与您的数据来源同步。
一个索引可以包含多个数据来源。每个数据来源可以有自己的更新计划。例如,您可以每天甚至每小时更新工作文档的索引,同时在存档发生变化时手动更新存档的文档。
如果您想在文档摄取过程中更改文档元数据或属性和内容,请参阅 Amazon Kendra 自定义文档扩充。
注意
每个索引的每个文档 ID 必须是唯一的。您不能创建数据源来索引具有唯一性的文档,IDs然后使用BatchPutDocument
API为相同的文档编制索引,反之亦然。您可以删除数据源,然后使用索BatchPutDocument
API引相同的文档,反之亦然。将BatchPutDocument
和BatchDeleteDocument
APIs与结合使用 Amazon Kendra 同一组文档的数据源连接器可能会导致与您的数据不一致。相反,我们建议使用 Amazon Kendra 自定义数据源连接器。
注意
添加到索引的文件必须采用 UTF -8 编码的字节流。有关文档的更多信息,请参阅 Amazon Kendra,请参阅 “文档”。
设置更新计划
将您的数据来源配置为使用控制台定期更新,或者在创建或更新数据来源时使用 Schedule
参数进行更新。参数的内容是一个字符串,它包含 cron
格式的计划字符串或空字符串,表示索引是按需更新的。有关 cron 表达式的格式,请参阅《规则》中的计划表达式 Amazon CloudWatch Events 用户指南。 Amazon Kendra 仅支持 cron 表达式。它不支持 rate 表达式。
设置语言
您可以使用支持的语言为数据来源中的所有文档编制索引。在调用时,您可以为数据源中的所有文档指定语言代码CreateDataSource。如果文档没有在元数据字段中指定语言代码,则使用为数据来源级别的所有文档指定的语言代码为该文档编制索引。如果你没有指定语言, Amazon Kendra 默认情况下,以英文对数据源中的文档进行索引。有关支持的语言(包括其代码)的更多信息,请参阅添加非英语语言文档。
在控制台中,您可以使用支持的语言为数据来源中的所有文档编制索引。转到数据来源并编辑您的数据来源,或者如果您要添加新的数据来源,请添加数据来源。在指定数据来源详细信息页面上,从语言下拉列表中选择一种语言。选择更新或继续输入配置信息以连接数据来源。