Amazon EMR クラスターエラー: HDFS replication factor error - Amazon EMR

Amazon EMR クラスターエラー: HDFS replication factor error

コアインスタンスグループまたはインスタンスフリートからコアノードを削除すると、Amazon EMR で HDFS レプリケーションエラーが発生する可能性があります。このエラーは、コアノードを削除し、コアノード数が Hadoop 分散ファイルシステム (HDFS) の設定済み dfs.replication 係数を下回ると発生します。そのため、Amazon EMR はオペレーションを安全に実行できません。dfs.replication 設定のデフォルト値を決定するには、「HDFS configuration」を参照してください。

考えられる原因

HDFS レプリケーションファクタエラーの考えられる原因については、以下を参照してください。

  • コアインスタンスグループまたはインスタンスフリートのサイズを設定した dfs.replication 係数より低く手動で変更した場合。

  • マネージドスケーリングまたは自動スケーリングのポリシーで、コアノードの数を dfs.replication のしきい値未満に減らすためのスケーリングが許可されている場合。

  • このエラーは、クラスターに dfs.replication で定義されているコアノードの数が最小限の場合に、Amazon EMR が異常なコアノードを置き換えようとする場合にも発生する可能性があります。

ソリューションとベストプラクティス

ソリューションとベストプラクティスについては、以下を参照してください。

  • Amazon EMR でサイズ変更を安全に完了できないため、Amazon EMR クラスターのサイズを手動で変更する場合は、dfs.replication より小さくスケールダウンしないでください。

  • マネージドスケーリングまたは自動スケーリングを使用する場合は、クラスターの最小容量が dfs.replication 係数を下回っていないことを確認してください。

  • コアインスタンスの数は、少なくとも dfs.replication に 1 を足した数にする必要があります。これにより、異常なコア置き換えを有効にした場合、Amazon EMR は異常なコアノードを正常に置き換えることができます。

重要

1 つのコアノードに障害が発生すると、dfs.replication を 1 に設定すると HDFS データが失われる可能性があります。クラスターに HDFS ストレージがある場合は、データ損失を避けるため、本番稼働ワークロード用に少なくとも 4 つのコアノードでクラスターを構成することをお勧めします。また、少なくとも 2 の dfs.replication 係数を設定してください。