HDFS 配置
下表描述了默认 Hadoop Distributed File System(HDFS)参数及其设置。您可以使用 hdfs-site
配置分类更改这些值。有关更多信息,请参阅 配置应用程序。
警告
-
如果单个节点出现故障,则在少于四个节点的集群上将
dfs.replication
设置为 1 可能会导致 HDFS 数据丢失。如果您的集群有 HDFS 存储,我们建议您将集群配置为至少四个用于生产工作负载的核心节点,以避免出现数据丢失情况。 -
Amazon EMR 不允许集群扩展
dfs.replication
下方的核心节点。例如,如果是dfs.replication = 2
,则最小核心节点数为 2。 -
当您使用托管式自动扩缩功能、自动扩缩功能或选择手动调整集群大小时,建议您将
dfs.replication
设置为2
或更高。
参数 | 定义 | 默认值 |
---|---|---|
dfs.block.size |
HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 |
134217728 (128 MB) |
dfs.replication |
要持久性存储的每个数据块的副本数量。Amazon EMR 根据集群预置的核心节点数量设置该值。调整该值以满足您的需求。要覆盖默认值,请使用 hdfs-site 分类。 |
|