Erro de cluster do Amazon EMR: erro do fator de replicação do HDFS - Amazon EMR

Erro de cluster do Amazon EMR: erro do fator de replicação do HDFS

Quando você remove um nó central de um grupo de instâncias centrais ou de uma frota de instâncias, o Amazon EMR pode se deparar com um erro de replicação do HDFS. Esse erro ocorre quando você remove os nós centrais e o número deles fica abaixo do fator de replicação dfs.replication configurado para o Sistema de Arquivos Distribuído do Hadoop (HDFS). Dessa forma, o Amazon EMR não pode realizar a operação com segurança. Para determinar o valor padrão da configuração dfs.replication, configuração do HDFS.

Possíveis causas

Confira as possíveis causas do erro do fator de replicação do HDFS:

Soluções e práticas recomendadas

Consulte as seguintes informações para obter as soluções e práticas recomendadas:

  • Ao redimensionar manualmente um cluster do Amazon EMR, não reduza a escala verticalmente abaixo de dfs.replication, pois o Amazon EMR não pode concluir o redimensionamento com segurança.

  • Ao usar o ajuste de escala gerenciado ou automático, certifique-se de que a capacidade mínima do cluster não seja inferior ao fator dfs.replication.

  • O número de instâncias centrais deve ser pelo menos dfs.replication mais uma. Isso garante que o Amazon EMR possa substituir com êxito um nó central não íntegro se você habilitou a substituição de núcleo não íntegro.

Importante

A falha de um único nó central pode levar à perda de dados do HDFS se você definir dfs.replication como 1. Se o cluster tiver armazenamento HDFS, é recomendável configurá-lo com pelo menos quatro nós centrais para workloads de produção e evitar perda de dados; defina também um fator dfs.replication de pelo menos 2.