HDFS 配置 - Amazon EMR

HDFS 配置

下表描述了默认 Hadoop Distributed File System(HDFS)参数及其设置。您可以使用 hdfs-site 配置分类更改这些值。有关更多信息,请参阅 配置应用程序

警告
  1. 如果单个节点出现故障,则在少于四个节点的集群上将 dfs.replication 设置为 1 可能会导致 HDFS 数据丢失。如果您的集群有 HDFS 存储,我们建议您将集群配置为至少四个用于生产工作负载的核心节点,以避免出现数据丢失情况。

  2. Amazon EMR 不允许集群扩展 dfs.replication 下方的核心节点。例如,如果是 dfs.replication = 2,则最小核心节点数为 2。

  3. 当您使用托管式自动扩缩功能、自动扩缩功能或选择手动调整集群大小时,建议您将 dfs.replication 设置为 2 或更高。

参数 定义 默认值
dfs.block.size HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 134217728 (128 MB)
dfs.replication 要持久性存储的每个数据块的副本数量。Amazon EMR 根据集群预置的核心节点数量设置该值。调整该值以满足您的需求。要覆盖默认值,请使用 hdfs-site 分类。

1 适用于预置少于四个核心节点的集群

2 适用于预置少于 10 个核心节点的集群

3 适用于所有其他集群