Configuración de HDFS - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de HDFS

La tabla siguiente describe los parámetros de Hadoop Distributed File System (HDFS) predeterminados y su configuración. Puede cambiar estos valores mediante la clasificación de configuración hdfs-site. Para obtener más información, consulte Configuración de aplicaciones.

aviso
  1. Establecer dfs.replication en 1 en clústeres con menos de cuatro nodos puede conllevar la pérdida de datos del HDFS si un solo nodo deja de funcionar. Si su clúster tiene almacenamiento HDFS, le recomendamos que lo configure con al menos cuatro nodos principales para las cargas de trabajo de producción con el objetivo de evitar la pérdida de datos.

  2. Amazon EMR no permitirá que los clústeres escalen los nodos principales por debajo de dfs.replication. Por ejemplo, si dfs.replication = 2, el número mínimo de nodos principales es 2.

  3. Cuando utiliza el escalado administrado, emplea el escalado automático o decide cambiar el tamaño del clúster manualmente, se recomienda que establezca dfs.replication en 2 o más.

Parámetro Definición Valor predeterminado
dfs.block.size El tamaño de bloques de HDFS. Cuando se opera con datos almacenados en HDFS, el tamaño dividido es por lo general el tamaño de un bloque de HDFS. Los números más grandes ofrecen menos granularidad de tarea, pero también aplican menos sobrecarga al clúster NameNode. 134 217 728 (128 MB)
dfs.replication El número de copias de cada bloque que almacenar por razones de durabilidad. Amazon EMR establece este valor en función del número de nodos principales con los que se aprovisiona el clúster. Ajuste el valor para que se adapte a sus necesidades. Para sobrescribir el valor predeterminado, utilice la clasificación hdfs-site.

1 para clústeres aprovisionados con menos de cuatro nodos principales

2 para clústeres aprovisionados con menos de diez nodos principales

3 para el resto de clústeres