Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de HDFS
La tabla siguiente describe los parámetros de Hadoop Distributed File System (HDFS) predeterminados y su configuración. Puede cambiar estos valores mediante la clasificación de configuración hdfs-site
. Para obtener más información, consulte Configuración de aplicaciones.
aviso
-
Establecer
dfs.replication
en 1 en clústeres con menos de cuatro nodos puede conllevar la pérdida de datos del HDFS si un solo nodo deja de funcionar. Si su clúster tiene almacenamiento HDFS, le recomendamos que lo configure con al menos cuatro nodos principales para las cargas de trabajo de producción con el objetivo de evitar la pérdida de datos. -
Amazon EMR no permitirá que los clústeres escalen los nodos principales por debajo de
dfs.replication
. Por ejemplo, sidfs.replication = 2
, el número mínimo de nodos principales es 2. -
Cuando utiliza el escalado administrado, emplea el escalado automático o decide cambiar el tamaño del clúster manualmente, se recomienda que establezca
dfs.replication
en2
o más.
Parámetro | Definición | Valor predeterminado |
---|---|---|
dfs.block.size |
El tamaño de bloques de HDFS. Cuando se opera con datos almacenados en HDFS, el tamaño dividido es por lo general el tamaño de un bloque de HDFS. Los números más grandes ofrecen menos granularidad de tarea, pero también aplican menos sobrecarga al clúster NameNode . |
134 217 728 (128 MB) |
dfs.replication |
El número de copias de cada bloque que almacenar por razones de durabilidad. Amazon EMR establece este valor en función del número de nodos principales con los que se aprovisiona el clúster. Ajuste el valor para que se adapte a sus necesidades. Para sobrescribir el valor predeterminado, utilice la clasificación hdfs-site . |
|