Configuração do HDFS - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configuração do HDFS

A tabela a seguir descreve os parâmetros padrão do Hadoop Distributed File System (HDFS) e suas configurações. Você pode alterar esses valores usando a classificação de configuração hdfs-site. Para obter mais informações, consulte Configurar aplicações.

Atenção
  1. Definir dfs.replication como 1 em clusters com menos de quatro nós poderá causar perda de dados do HDFS se um único nó ficar inativo. Se seu cluster tiver armazenamento HDFS, é recomendável configurar o cluster com pelo menos quatro nós principais para workloads de produção para evitar perda de dados.

  2. O Amazon EMR não permitirá que os clusters escalem os nós principais abaixo de dfs.replication. Por exemplo, se dfs.replication = 2, o número mínimo de nós central será 2.

  3. Ao usar o Ajuste de Escala Gerenciado, o ajuste de escala automático ou optar por redimensionar manualmente o cluster, é recomendável definir dfs.replication como 2 ou mais.

Parameter Definição Valor padrão
dfs.block.size O tamanho de blocos HDFS. Ao trabalhar com dados armazenados no HDFS, o tamanho da divisão, geralmente, é o tamanho de um bloco HDFS. Números maiores fornecem menos granularidade de tarefas, mas também impõem menos pressão no cluster NameNode. 134217728 (128 MB)
dfs.replication O número de cópias de cada bloco a ser armazenado para durabilidade. O Amazon EMR define esse valor com base no número de nós centrais com os quais o cluster é provisionado. Ajuste o valor para atender a suas necessidades. Para substituir o valor padrão, use a classificação hdfs-site.

1 para clusters provisionados com menos de quatro nós centrais

2 para clusters provisionados com menos de dez nós centrais

3 para todos os outros clusters