配置来自 HDFS 的AWS DataSync传输 - AWS DataSync

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置来自 HDFS 的AWS DataSync传输

要从 Hadoop 分布式文件系统 (HDFS) 传输数据,您必须创建AWS DataSync传输位置。

访问 HDFS 集群

要连接到 HDFS 集群,请DataSync使用在 HDFS 集群附近部署的代理。要了解有关DataSync代理的更多信息,请参阅与AWS DataSync代理合作。DataSync代理充当 HDFS 客户端,与集群DataNodes中的NameNodes和通信。

启动任务时,DataSync查询NameNode集群上文件和文件夹的位置。如果将 HDFS 位置配置为源,则从集群DataNodes中的DataSync读取文件和文件夹数据,并将数据复制到目标。如果将 HDFS 位置配置为目标,则DataSync将文件和文件夹从目标写入集群DataNodes中的。在运行DataSync任务之前,请验证代理与 HDFS 集群的连接。有关更多信息,请参阅测试代理与存储系统的连接

身份验证

连接到 HDFS 集群时,DataSync支持简单身份验证或 Kerberos 身份验证。要使用简单身份验证,请提供具有 HDFS 集群读写权限的用户名。要使用 Kerberos 身份验证,请提供 Kerberos 配置文件、Kerberos 密钥表 (keytab) 文件和 Kerberos 主体名称。Kerberos 主体的证书必须位于提供的密钥表文件中。

加密

使用 Kerberos 身份验证时,DataSync支持在DataSync代理和 HDFS 集群之间传输的数据进行加密。使用您的 HDFS 集群上的保护质量 (QOP) 配置设置以及在创建 HDFS 位置时指定 QOP 设置来加密您的数据。QOP 配置包括数据传输保护和远程程序调用 (RPC) 保护设置。

DataSync支持以下 Kerberos 加密类型:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

您还可以为 HDFS 集群配置,使用透明数据加密 (TDE)。使用简单身份验证时,对启用 TDE 的集群进行DataSync读取和写入。如果您使用将数据复制DataSync到启用 TDE 的集群,请先在 HDFS 集群上配置加密区域。DataSync不会创建加密区域。

创建您的 HDFS 传输位置

配置一个可使用DataSync传输源的地点。

开始之前:通过执行以下操作验证代理和 Hadoop 集群之间的网络连接:

使用控制台创建 HDFS 位置 DataSync
  1. 通过 https://console.aws.amazon.com/datasync/ 打开AWS DataSync主机。

  2. 在左侧导航窗格中,展开 “数据传输”,然后选择 “位置” 和 “创建位置”。

  3. 对于位置类型,请选择 Hadoop 分布式文件系统 (HDFS)。您可以稍后将此位置配置为源位置或目标。

  4. 对于代理,从可用代理列表中选择一个或多个要使用的代理。代理连接到您的 HDFS 集群,以便在 HDFS 集群和之间安全地传输数据。DataSync

  5. 对于 NameNode,提供 HDFS 群集主NameNode群集的域名或 IP 地址。

  6. “文件夹” 中,输入 HDFS 集群DataSync上用于数据传输的文件夹。将该位置用作任务源时,DataSync将文件复制到提供的文件夹中。将您的位置用作任务的目的地时,DataSync将所有文件写入提供的文件夹。

  7. 要设置块大小复制因子,请选择其他设置。默认块大小为 128 MiB,并且提供的任何块大小必须是 512 字节的倍数。将数据传输到 HDFS 集群DataNodes时,默认复制因子为三。

  8. 安全部分中,选择您的 HDFS 集群上使用的身份验证类型

    • 简单 — 对于用户,在 HDFS 集群上指定具有以下权限的用户名(取决于您的用例):

      • 如果您计划使用此位置作为源位置,请指定仅具有读取权限的用户。

      • 如果您打算将此位置用作目标位置,请指定具有读取和写入权限的用户。

      或者,指定 HDFS 集群的密钥管理服务器(KMS)的 URI。

    • Kerberos — 指定有权访问您的 HDFS 集群的 Kerberos 体。接下来,提供包含所提供的 Kerberos 主体的KeyTab文件。然后,提供 Kerberos 配置文件。最后,在 RPC 保护和数据传输保护下拉列表中指定传输保护中的加密类型。

  9. (可选)选择添加标签来标记您的 HDFS 位置。

    标签是键值对,帮助您管理、筛选和搜索位置。我们建议至少为您的位置创建一个名称标签。

  10. 选择创建地点

不支持的 HDFS 功能

HDFS 的以下功能目前不支持:DataSync

  • 使用 Kerberos 身份验证时的透明数据加密 (TDE)

  • 配置多个 NameNodes

  • 基于 HTTP 的 Hadoop HDFS (HTTPFS)

  • POSIX 访问控制列表 (ACL)

  • HDFS 扩展属性 (xattrs)