SharePoint 连接器 V1.0 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SharePoint 连接器 V1.0

SharePoint 是一项协作建站服务,可用于自定义 Web 内容以及创建页面、站点、文档库和列表。如果您是 SharePoint 用户,则可以使用 Amazon Kendra 为您的 SharePoint 数据源编制索引。

注意

对 SharePoint 连接器 V1.0/的支持计划 SharePointConfiguration API于 2023 年结束。我们建议迁移到或使用 SharePoint 连接器 V2.0/ TemplateConfiguration API。

用于对您进行故障排除 Amazon Kendra SharePoint 数据源连接器,请参阅数据来源故障排除

支持的特征

  • 字段映射

  • 用户访问控制

  • 包含/排除筛选条件

  • 更改日志

  • 虚拟私有云 (VPC)

先决条件

在你可以使用之前 Amazon Kendra 要索引您的 SharePoint 数据源,请在 SharePoint 和中进行这些更改 AWS 账户。

您需要提供身份验证凭证,这些凭据可以安全地存储在 AWS Secrets Manager 秘密。

注意

我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。

在中 SharePoint,请确保你有:

  • 已记URL下您要编入索引的 SharePoint 网站。

  • SharePoint 在线版:

    • 已记下您的基本身份验证凭证,其中包含具有站点管理员权限的用户名和密码。

    • 可选:生成的 OAuth 2.0 凭据包含用户名、密码、客户端 ID 和客户机密钥。

    • 使用管理用户在 Azure 门户中停用安全默认值。有关在 Azure 门户中管理安全默认设置的更多信息,请参阅 Microsoft 关于如何启用/禁用安全默认设置的文档

  • 对于 SharePoint 服务器:

    • 记下了您的 SharePoint 服务器域名(活动目录中的网络BIOS名称)。您可以使用它以及您的 SharePoint 基本身份验证用户名和密码将 SharePoint 服务器连接到 Amazon Kendra.

    注意

    如果您使用 SharePoint 服务器并且需要将访问控制列表 (ACL) 转换为电子邮件格式以便根据用户上下文进行筛选,请提供LDAP服务器URL和LDAP搜索库。或者,您也可以使用目录域覆盖。LDAP服务器URL是完整的域名和端口号(例如,ldap: //example.com: 389)。LDAP搜索库是域控制器的 “示例” 和 “com”。使用目录域覆盖后,您可以使用电子邮件域而不是使用LDAP服务器URL和LDAP搜索库。例如,username@example.com 的电子邮件域名是“example.com”。如果您不想验证域名,而只想使用您的电子邮件域名,则可以使用此替代方法。

  • 为您的 SharePoint 账户添加了以下权限:

    对于 SharePoint 清单

    • 打开项目 - 使用服务器端文件处理程序查看文档的来源。

    • 查看应用程序页面 - 查看表单、视图和应用程序页面。枚举列表。

    • 查看项目 - 查看列表中的项目和文档库中的文档。

    • 查看版本 - 查看列表项或文档的过去版本。

    对于 SharePoint 网站

    • 浏览目录-使用 SharePoint 设计器和 Web 界面枚举网站中的文件和文件夹。DAV

    • 浏览用户信息 - 查看有关网站用户的信息。

    • 枚举权限 - 枚举网站、列表、文件夹、文档或列表项的权限。

    • 打开 - 打开网站、列表或文件夹以访问容器内的项目。

    • 使用客户端集成功能-使用SOAP、Web DAV、客户端对象模型或 SharePoint 设计器界面访问网站。

    • 使用远程接口 - 使用启动客户端应用程序的功能。

    • 查看页面 - 查看网站上的页面。

  • 已选中每个文档在您计划用于同一索引的其他数据源中 SharePoint 以及其他数据源中都是唯一的。您要用于编制索引的每个数据来源在所有数据来源中都不能包含相同的文档。文档对索引来说IDs是全局的,并且每个索引必须是唯一的。

在你的 AWS 账户,请确保你有:

  • 创建了一个 Amazon Kendra 索引,如果使用API,则记下索引 ID。

  • 创建了一个 IAM 您的数据源的角色,如果使用API,则注ARN明了 IAM 角色。

    注意

    如果您更改了身份验证类型和凭证,则必须更新您的 IAM 角色可以访问正确的 AWS Secrets Manager 秘密身份证。

  • 将您的 SharePoint 身份验证凭证存储在 AWS Secrets Manager secret,如果使用API,则记下该秘密ARN的内容。

    注意

    我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。

如果你没有现有 IAM 角色或密钥,你可以使用控制台创建新的 IAM 角色和 Secrets Manager 将 SharePoint 数据源连接到 secret Amazon Kendra。 如果您使用的是API,则必须提供现有ARN的 IAM 角色和 Secrets Manager 密钥和索引 ID。

连接说明

要连接 Amazon Kendra 对于您的 SharePoint 数据源,您必须提供 SharePoint 凭据的详细信息,以便 Amazon Kendra 可以访问您的数据。如果您尚未 SharePoint 配置 Amazon Kendra 见先决条件

Console

要连接 Amazon Kendra 到 SharePoint

  1. 登录 AWS 管理控制台并打开 Amazon Kendra 控制台

  2. 在左侧导航窗格中,选择索引,然后从索引列表中选择要使用的索引。

    注意

    您可以选择在索引设置下配置或编辑您的用户访问控制设置。

  3. 入门页面上,选择添加数据来源

  4. 添加数据源页面上,选择SharePoint 连接器 v1.0,然后选择添加数据源

  5. 指定数据来源详细信息页面上输入以下信息:

    1. 名称和描述中,在数据来源名称中输入您的数据来源的名称。可以包含连字符,但不能包含空格。

    2. (可选)说明 - 为数据来源输入说明。

    3. 使用默认语言-选择一种语言来筛选文档中的索引。除非另行指定,否则语言默认为英语。在文档元数据中指定的语言会覆盖所选语言。

    4. 标签中,用于添加新标签-包括可选标签以搜索和筛选您的资源或跟踪您的资源 AWS 成本。

    5. 选择下一步

  6. 定义访问权限和安全性页面上,请输入以下信息:

    1. 对于托管方式-在 “SharePoint 联机” 和 “SharePoint服务器” 之间进行选择。

      1. SharePoint在线版-输入URLs特定于您的 SharePoint存储库的站点

      2. 对于 SharePointServer — 选择您的SharePoint 版本,输入 SharePoint 存储库URLs专用的站点,然后输入 Amazon S3 您的SSL证书位置的路径。

    2. (仅限SharePoint 服务器)对于 Web 代理-输入内部 SharePoint 实例的主机名端口号。端口号应为介于 0 到 65535 之间的数值。

    3. 对于身份验证 - 根据您的使用案例选择以下选项:

      1. 对于 SharePoint 联机-在基本身份验证和 OAuth2.0 身份验证之间进行选择。

      2. 对于 SharePoint 服务器-在 “” 和 “手动 LDAP” 之间进行选择。

    4. 对于 AWS Secrets Manager secret —选择现有密钥或创建新密钥 Secrets Manager 用于存储您的 SharePoint身份验证凭据的秘密。如果您选择创建新密钥 AWS Secrets Manager 秘密窗口打开。您必须输入密钥名称。前缀 “AmazonKendra-SharePoint-” 会自动添加到您的密钥名称中。

    5. 在 “创建” 中输入以下其他信息 AWS Secrets Manager 秘密窗口

      1. 根据您的用例,从以下 SharePoint Cloud 身份验证选项中进行选择:

        1. 基本身份验证-输入您的 SharePoint 帐户用户名作为用户名,将 SharePoint 帐户密码输入为密码

        2. OAuth2.0 身份验证-输入您的 SharePoint 账户用户名作为用户名,将 SharePoint帐户密码输入为密码,将自动生成的唯一 SharePoint ID 输入为客户端 ID,并输入和使用的共享密钥字符串 SharePoint Amazon Kendra 作为客户机密

      2. 根据您的用例,从以下 SharePoint服务器身份验证选项中进行选择:

        1. -输入您的 SharePoint 帐户用户名作为用户名,将您的 SharePoint 帐户密码输入为密码,并输入您的服务器域名

        2. LDAP—输入您的 SharePoint 帐户用户名作为用户名,将 SharePoint帐户密码输入为密码,输入您的LDAP服务器终端节点(包括协议和端口号) ldap://example.com:389) 和您的LDAP搜索库(例如,dc=example, dc=com).

        3. 手动-输入您的 SharePoint 帐户用户名作为用户名,将您的 SharePoint 帐户密码输入为密码,并输入您的电子邮件域覆盖(目录用户或群组的电子邮件域)。

      3. 选择保存

    6. 虚拟私有云 (VPC)-您还必须添加子网VPC安全组

      注意

      VPC如果您使用 SharePoint 服务器,则必须使用。 Amazon VPC 对于其他 SharePoint版本是可选的。

    7. IAM 角色 —选择现有角色 IAM 角色或创建一个新的 IAM 角色来访问您的存储库凭据和索引内容。

      注意

      IAM 用于索引的角色不能用于数据源。如果您不确定是将现有角色用于索引还是FAQ,请选择创建新角色以避免出错。

    8. 选择下一步

  7. 配置同步设置页面上,请输入以下信息:

    1. 使用更改日志 - 选择更新索引,而不是同步所有文件。

    2. 爬取附件 - 选择此选项可爬取附件。

    3. 使用本地组映射 - 选择此选项可确保正确筛选文档。

    4. 其他配置 - 添加正则表达式模式以包含或排除某些文件。最多可以添加 100 个模式。

    5. 频率同步运行计划-多久运行频率 Amazon Kendra 将与您的数据源同步。

    6. 选择下一步

  8. 设置字段映射页面上,请输入以下信息:

    1. Amazon Kendra 默认字段映射 -从中选择 Amazon Kendra 生成了要映射到索引的默认数据源字段。

    2. 对于自定义字段映射 - 添加自定义数据来源字段以创建要映射到的索引字段名称和字段数据类型。

    3. 选择下一步

  9. 查看和创建页面上,请检查输入的信息是否正确,然后选择添加数据来源。您也可以选择在此页面上编辑信息。成功添加数据来源后,您的数据来源将显示在数据来源页面上。

API

要连接 Amazon Kendra 到 SharePoint

必须使用以下方法指定以下内容 SharePointConfigurationAPI:

  • SharePoint版本-指定配置 SharePoint时使用的 SharePoint版本。无论你使用的是 Server 2013、 SharePoint Server 2016、S SharePoint erver 2019 还是 O SharePoint nlin SharePoint e,情况都是如此。

  • 亚马逊秘密资源名称 (ARN)-提供亚马逊资源名称 (ARN) Secrets Manager 包含您在 SharePoint 账户中创建的身份验证凭证的密钥。密钥存储在JSON结构中。

    对于SharePoint 在线基本身份验证,以下是您的密钥中必须包含的最低JSON结构:

    { "userName": "user name", "password": "password" }

    对于 SharePoint Online OAuth 2.0 身份验证,以下是您的密钥中必须包含的最低JSON结构:

    { "userName": "SharePoint account user name"", "password": "SharePoint account password", "clientId": "SharePoint auto-generated unique client id", "clientSecret": "secret string shared by Amazon Kendra and SharePoint to authorize communications" }

    对于SharePoint 服务器基本身份验证,以下是您的密钥中必须包含的最低JSON结构:

    { "userName": "user name", "password": "password", "domain": "server domain name" }

    对于SharePoint 服务器LDAP身份验证(如果您需要将访问控制列表 (ACL) 转换为电子邮件格式以便根据用户上下文进行筛选,则可以在密钥中包含LDAP服务器URL和LDAP搜索库),以下是您的密钥中必须包含的最低JSON结构:

    { "userName": "user name", "password": "password", "domain": "server domain name" "ldapServerUrl": "ldap://example.com:389", "ldapSearchBase": "dc=example,dc=com" }

    对于 SharePoint Server Manual 身份验证,以下是您的密钥中必须包含的最低JSON结构:

    { "userName": "user name", "password": "password", "domain": "server domain name", "emailDomainOverride": "example.com" }
  • IAM ro le —指定RoleArn何时调用CreateDataSource以提供 IAM 具有访问您权限的角色 Secrets Manager secret 并致电APIs所需的公众获取 SharePoint 连接器和 Amazon Kendra。 有关更多信息,请参阅 IAM SharePoint 数据源的角色

  • Amazon VPC— 如果您使用 SharePoint ServerVpcConfiguration,请在数据源配置中指定。参见配置 Amazon Kendra 使用 a VPC.

您还可以添加以下可选功能:

  • Web 代理-是否URLs通过 Web 代理连接到您的 SharePoint 站点。此选项只能用于 SharePoint服务器。

  • 索引列表-是否 Amazon Kendra 应将附件的内容编入 SharePoint 列表项的索引。

  • 更改日志-是否 Amazon Kendra 应使用 SharePoint 数据源更改日志机制来确定是否必须在索引中更新文档。

    注意

    如果你不想使用变更日志 Amazon Kendra 扫描所有文档。如果您的更改日志很大,则可能需要一定的时间 Amazon Kendra 与处理更改日志相比,扫描 SharePoint 数据源中文档的时间更短。如果您是首次将 SharePoint数据源与索引同步,则会扫描所有文档。

  • 包含和排除筛选条件 - 您可以指定是包含还是排除某些内容。

    注意

    大多数数据来源使用正则表达式模式,即称为筛选条件的包含或排除模式。如果您指定包含筛选条件,则只会为与包含筛选条件匹配的内容编制索引。不会为任何与包含筛选条件不匹配的文档编制索引。如果您指定包含和排除筛选条件,则不会为与排除筛选条件匹配的文档编制索引,即使它们与包含筛选条件相匹配。

  • 字段映射-选择将您的 SharePoint 数据源字段映射到 Amazon Kendra 索引字段。有关更多信息,请参阅映射数据来源字段

    注意

    必须填写文档正文字段或与您的文档相当的正文字段,以便 Amazon Kendra 搜索您的文档。您必须将数据源中的文档正文字段名称映射到索引字段名称_document_body。其他所有字段均为可选字段。

  • 用户上下文筛选和访问控制 —Amazon Kendra 如果您的文档有访问控制列表 (ACL),则会抓取文档的ACL访问控制列表 ()。该ACL信息用于根据用户或其群组对文档的访问权限筛选搜索结果。有关更多信息,请参阅用户上下文筛选

了解更多

要了解有关集成的更多信息 Amazon Kendra 对于您的 SharePoint数据源,请参阅: