As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração do HDFS
A tabela a seguir descreve os parâmetros padrão do Hadoop Distributed File System (HDFS) e suas configurações. Você pode alterar esses valores usando a classificação de configuração hdfs-site
. Para obter mais informações, consulte Configurar aplicações.
Atenção
-
Definir
dfs.replication
como 1 em clusters com menos de quatro nós poderá causar perda de dados do HDFS se um único nó ficar inativo. Se seu cluster tiver armazenamento HDFS, é recomendável configurar o cluster com pelo menos quatro nós principais para workloads de produção para evitar perda de dados. -
O Amazon EMR não permitirá que os clusters escalem os nós principais abaixo de
dfs.replication
. Por exemplo, sedfs.replication = 2
, o número mínimo de nós central será 2. -
Ao usar o Ajuste de Escala Gerenciado, o ajuste de escala automático ou optar por redimensionar manualmente o cluster, é recomendável definir
dfs.replication
como2
ou mais.
Parameter | Definição | Valor padrão |
---|---|---|
dfs.block.size |
O tamanho de blocos HDFS. Ao trabalhar com dados armazenados no HDFS, o tamanho da divisão, geralmente, é o tamanho de um bloco HDFS. Números maiores fornecem menos granularidade de tarefas, mas também impõem menos pressão no cluster NameNode . |
134217728 (128 MB) |
dfs.replication |
O número de cópias de cada bloco a ser armazenado para durabilidade. O Amazon EMR define esse valor com base no número de nós centrais com os quais o cluster é provisionado. Ajuste o valor para atender a suas necessidades. Para substituir o valor padrão, use a classificação hdfs-site . |
|