Amazon VPC 与 Amazon S3 数据源一起使用 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon VPC 与 Amazon S3 数据源一起使用

本主题提供的 step-by-step 示例展示了如何使用亚马逊 S3 连接器通过 Amazon VPC 连接到 Amazon S3 存储桶。该示例假设您从现有的 S3 存储桶开始。我们建议您仅将几个文档上传到 S3 存储桶以测试示例。

您可以通过 Amazon Kendra 连接到您的 Amazon S3 存储桶 Amazon VPC。为此,您必须在创建 Amazon S3 数据源连接器时指定 Amazon VPC 子网和 Amazon VPC 安全组。

重要

为了让 Amazon Kendra Amazon S3 连接器可以访问您的 Amazon S3 存储桶,请确保您已为虚拟私有云 (VPC) 分配了 Amazon S3 终端节点。

Amazon Kendra 要通过同步 Amazon S3 存储桶中的文档 Amazon VPC,您必须完成以下步骤:

  • 为设置 Amazon S3 终端节点 Amazon VPC。有关如何设置 Amazon S3 终端节点的更多信息,请参阅AWS PrivateLink 指南 Amazon S3中的网关终端节点

  • (可选)已检查您的 Amazon S3 存储桶策略,确保可以从您分配到的虚拟私有云 (VPC) 访问 Amazon S3 存储桶 Amazon Kendra。有关更多信息,请参阅 Amazon S3 用户指南中的使用存储桶策略控制 VPC 终端节点的访问

步骤 1:配置 Amazon VPC

创建一个 VPC 网络,包括一个带有网 Amazon S3 关终端节点和安全组的私有子网 Amazon Kendra ,供以后使用。

为 VPC 配置私有子网、S3 终端节点和安全组
  1. 登录 AWS Management Console 并打开 Amazon VPC 控制台,网址为https://console.aws.amazon.com/vpc/

  2. 创建具有私有子网和 S3 终端节点的 VPC Amazon Kendra 以供使用:

    在导航窗格中,选择您的 VPC,然后选择创建 VPC

    1. 对于要创建的资源,选择 VPC 等

    2. 对于 “名称标签”,启用 “自动生成”,然后输入kendra-s3-example

    3. 对于 IPv4/IPv6 CIDR 块,请保留默认值。

    4. 对于可用区 (AZ) 的数量,请选择数字 1

    5. 选择 “自定义可用区”,然后从第一个可用区列表中选择一个可用区

      Amazon Kendra 仅支持一组特定的可用区。

    6. 在 “公有子网数量” 中,选择数字 0

    7. 私有子网数量中,选择数字 1

    8. 对于 NAT gateways(NAT 网关),选择 None(无)。

    9. 对于 VPC 终端节点,请选择Amazon S3 网关。

    10. 将其余值保留为默认设置。

    11. 选择 Create VPC

      等到创建 VPC 工作流程完成。然后,选择查看 VPC 以检查您刚刚创建的 VPC

    现在,您已经创建了一个带有私有子网的 VPC 网络,该子网无法访问公共互联网。

  3. 复制您的 Amazon S3 终端节点的 VPC 终端节点 ID:

    1. 在导航窗格中,选择端点

    2. 终端节点列表中,找到您刚刚与您的 VPC 一起创建的 Amazon S3 终端节点kendra-s3-example-vpce-s3

    3. 记下 VPC 终端节点 ID

    现在,您已经创建了一个 Amazon S3 网关终端节点,用于通过子网访问您的 Amazon S3 存储桶。

  4. 创建安全组 Amazon Kendra 以供使用:

    1. 在导航窗格中,选择安全组,然后选择创建安全组

    2. 对于安全组名称,输入 s3-data-source-security-group

    3. Amazon VPC列表中选择您的 VPC。

    4. 入站规则出站规则保留为默认值。

    5. 选择创建安全组

    现在,您已经创建了一个 VPC 安全组。

在连接器配置过程中,您将创建的子网和安全组分配给 Amazon Kendra Amazon S3 数据源连接器。

(可选)步骤 2:配置 Amazon S3 存储桶策略

在此可选步骤中,学习如何配置 Amazon S3 存储桶策略,以便只能从您分配给的 VPC 访问您的 Amazon S3 存储桶 Amazon Kendra。

Amazon Kendra 使用 IAM 角色访问您的 Amazon S3 存储桶,并且不需要您配置 Amazon S3 存储桶策略。但是,如果您想使用 Amazon S3 存储桶配置 Amazon S3 连接器,而该存储桶具有限制从公共 Internet 访问的现有策略,那么创建存储桶策略可能会很有用。

配置您的 Amazon S3 存储桶策略
  1. 打开 Amazon S3 控制台,网址为 https://console.aws.amazon.com/s3/

  2. 从导航窗格中选择 Buckets。

  3. 选择您要与之同步的 Amazon S3 存储桶的名称 Amazon Kendra。

  4. 选择 “权限” 选项卡,向下滚动到 “存储桶策略”,然后单击 “编辑”

  5. 添加或修改您的存储桶策略,使其仅允许从您创建的 VPC 终端节点进行访问。

    下面是一个示例存储桶策略。将bucket-namevpce-id替换为您的 Amazon S3 存储桶名称和您之前记下的 Amazon S3 终端节点 ID。

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Deny", "Principal": "*", "Action": "s3:*", "Resource": "arn:aws:s3:::bucket-name/*", "Condition": { "StringNotEquals": { "aws:SourceVpce": "vpce-id" } } } ] }
  6. 选择保存更改

现在,只能从您创建的特定 VPC 访问您的 S3 存储桶。

步骤 3:创建测试 Amazon S3 数据源连接器

要测试您的 Amazon VPC 配置,请创建一个 Amazon S3 连接器。然后,按照中概述的步骤,使用您创建的 VPC 对其进行配置Amazon S3

对于 Amazon VPC 配置值,请选择您在本示例中创建的值:

  • Amazon VPC(VPC)kendra-s3-example-vpc

  • 子网 — kendra-s3-example-subnet-private1-[availability zone]

  • 安全组s3-data-source-security-group

等待连接器完成创建。创建 Amazon S3 连接器后,选择 “立即同步” 以启动同步。

完成同步可能需要几分钟到几小时,具体取决于 Amazon S3 存储桶中有多少文档。为了测试该示例,我们建议您只将几个文档上传到 S3 存储桶。如果您的配置正确,您最终应该会看到同步状态为 “已完成”。

如果遇到任何错误,请参阅Amazon VPC 连接疑难解答