Error de clúster de Amazon EMR: “Error del factor de replicación de HDFS” - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Error de clúster de Amazon EMR: “Error del factor de replicación de HDFS”

Al eliminar un nodo básico de un grupo de instancias principal o de una flota de instancias, Amazon EMR podría sufrir un error de replicación de HDFS. Este error se produce cuando se eliminan los nodos básicos y el número de nodos básicos es inferior al factor dfs.replication configurado para el Sistema de archivos distribuido de Hadoop (HDFS). Por lo tanto, Amazon EMR no puede realizar la operación de forma segura. Para determinar el valor predeterminado de la configuración dfs.replication, utilice la Configuración HDFS.

Causas posibles

Consulte lo siguiente para conocer las posibles causas del error del factor de replicación de HDFS:

  • Si cambia manualmente el tamaño de un grupo de instancias principal o una flota de instancias por debajo del factor configurado dfs.replication.

  • Sus políticas de escalado administrado o de escalado automático pueden permitir el escalado para reducir la cantidad de nodos básicos por debajo del umbral de dfs.replication.

  • Este error también puede producirse si Amazon EMR intenta reemplazar un nodo básico en mal estado cuando un clúster tiene el número mínimo de nodos básicos definido por dfs.replication.

Soluciones y prácticas recomendadas

Consulte lo siguiente para obtener soluciones y prácticas recomendadas:

  • Cuando cambie manualmente el tamaño de un clúster de Amazon EMR, no lo reduzca verticalmente por debajo de dfs.replication ya que Amazon EMR no puede completar el cambio de tamaño de forma segura.

  • Cuando utilice el escalado administrado o el escalado automático, asegúrese de que la capacidad mínima del clúster no sea inferior al factor dfs.replication.

  • El número de instancias principales debe ser como mínimo dfs.replication más una. Esto garantiza que Amazon EMR pueda reemplazar correctamente un nodo básico en mal estado si habilitó el reemplazo de núcleo en mal estado.

importante

El fallo de un solo nodo básico puede provocar la pérdida de datos del HDFS si usted establece dfs.replication en 1. Si su clúster tiene almacenamiento HDFS, le recomendamos que configure el clúster con al menos cuatro nodos principales para las cargas de trabajo de producción a fin de evitar la pérdida de datos y que también establezca el dfs.replication factor en al menos 2.