Erro de cluster do Amazon EMR: erro do fator de replicação do HDFS
Quando você remove um nó central de um grupo de instâncias centrais ou de uma frota de instâncias, o Amazon EMR pode se deparar com um erro de replicação do HDFS. Esse erro ocorre quando você remove os nós centrais e o número deles fica abaixo do fator de replicação dfs.replication configurado para o Sistema de Arquivos Distribuído do Hadoop (HDFS). Dessa forma, o Amazon EMR não pode realizar a operação com segurança. Para determinar o valor padrão da configuração dfs.replication
, configuração do HDFS.
Possíveis causas
Confira as possíveis causas do erro do fator de replicação do HDFS:
-
Se você redimensionar manualmente um grupo de instâncias centrais ou uma frota de instâncias abaixo do fator
dfs.replication
configurado. -
Suas políticas de escalabilidade gerenciada ou ajuste de escala automático podem permitir que o ajuste reduza o número de nós centrais abaixo do limite de
dfs.replication
. -
Esse erro também pode ocorrer se o Amazon EMR tentar substituir um nó central não íntegro quando um cluster tem o número mínimo de nós centrais definido por
dfs.replication
.
Soluções e práticas recomendadas
Consulte as seguintes informações para obter as soluções e práticas recomendadas:
-
Ao redimensionar manualmente um cluster do Amazon EMR, não reduza a escala verticalmente abaixo de
dfs.replication
, pois o Amazon EMR não pode concluir o redimensionamento com segurança. -
Ao usar o ajuste de escala gerenciado ou automático, certifique-se de que a capacidade mínima do cluster não seja inferior ao fator
dfs.replication
. -
O número de instâncias centrais deve ser pelo menos
dfs.replication
mais uma. Isso garante que o Amazon EMR possa substituir com êxito um nó central não íntegro se você habilitou a substituição de núcleo não íntegro.
Importante
A falha de um único nó central pode levar à perda de dados do HDFS se você definir dfs.replication
como 1. Se o cluster tiver armazenamento HDFS, é recomendável configurá-lo com pelo menos quatro nós centrais para workloads de produção e evitar perda de dados; defina também um fator dfs.replication
de pelo menos 2.