HDFS 構成
次の表に、Hadoop Distributed File System(HDFS)のデフォルトのパラメータとその設定を示します。hdfs-site
設定分類を使用して、これらの値を変更できます。詳細については、「アプリケーションの設定」を参照してください。
警告
-
ノードが 4 つ未満のクラスターで
dfs.replication
を 1 に設定すると、単一ノードがダウンした場合に HDFS データが失われる可能性があります。クラスターに HDFS ストレージがある場合は、データ損失を避けるため、本番稼働ワークロード用に少なくとも 4 つのコアノードでクラスターを構成することをお勧めします。 -
Amazon EMR では、クラスターはコアノードを
dfs.replication
未満にスケールすることはできません。例えば、dfs.replication = 2
の場合、コアノードの最小数は 2 です。 -
マネージドスケーリングや自動スケーリングを使用する場合や、クラスターのサイズを手動で変更する場合は、
dfs.replication
を2
以上に設定することをお勧めします。
パラメータ | 定義 | デフォルト値 |
---|---|---|
dfs.block.size |
HDFS ブロックのサイズ。HDFS に格納されているデータを操作するとき、分割サイズは原則として HDFS ブロックのサイズです。値を大きくするとタスクの粒度は小さくなりますが、クラスターへの負荷も低下します。NameNode |
134217728(128 MB) |
dfs.replication |
耐久性のために保存する各ブロックのコピー数。Amazon EMR は、クラスターがプロビジョニングされるコアノードの数に基づいてこの値を設定します。必要に応じて値を調整してください。デフォルト値を上書きするには、hdfs-site 分類を使用します。 |
|