Considerazioni e best practice per la creazione di un EMR cluster Amazon con più nodi primari - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e best practice per la creazione di un EMR cluster Amazon con più nodi primari

Considera quanto segue quando crei un EMR cluster Amazon con più nodi primari:

Importante

Per avviare EMR cluster ad alta disponibilità con più nodi primari, ti consigliamo vivamente di utilizzare l'ultima versione di AmazonEMR. Ciò garantisce il massimo livello di resilienza e stabilità per i cluster a disponibilità elevata.

  • L'elevata disponibilità, ad esempio, delle flotte è supportata dalle EMR versioni di Amazon 5.36.1, 5.36.2, 6.8.1, 6.9.1, 6.10.1, 6.11.1, 6.12.0 e successive. Ad esempio, i gruppi, l'alta disponibilità è supportata dalle EMR versioni di Amazon 5.23.0 e successive. Per ulteriori informazioni, consulta Informazioni su Amazon EMR Releases.

  • Nei cluster ad alta disponibilità, Amazon supporta EMR solo il lancio di nodi primari con istanze On Demand. Ciò garantisce la massima disponibilità per il cluster.

  • È ancora possibile specificare più tipi di istanze per il parco istanze primario, ma tutti i nodi primari dei cluster a disponibilità elevata vengono avviati con lo stesso tipo di istanza, comprese le sostituzioni per i nodi primari non integri.

  • Per continuare le operazioni, un cluster a disponibilità elevata con più nodi primari richiede che due nodi primari su tre siano integri. Di conseguenza, se due nodi primari si guastano contemporaneamente, il EMR cluster fallirà.

  • Tutti i EMR cluster, compresi i cluster ad alta disponibilità, vengono avviati in un'unica zona di disponibilità. Pertanto, non possono tollerare gli errori della zona di disponibilità. Nel caso di un'interruzione nella zona di disponibilità, perdi l'accesso al cluster.

  • Se utilizzi un ruolo o una policy di servizio personalizzato quando avvii un cluster all'interno di una flotta di istanze, puoi aggiungere l'ec2:DescribeInstanceTypeOfferingsautorizzazione in modo che Amazon EMR possa filtrare le zone di disponibilità (AZ) non supportate. Quando Amazon EMR filtra quelli AZs che non supportano alcun tipo di istanza di nodi primari, Amazon EMR impedisce che l'avvio del cluster non riesca a causa di tipi di istanze primarie non supportati. Per ulteriori informazioni, consulta Tipo di istanza non supportato.

  • Amazon EMR non garantisce l'elevata disponibilità per applicazioni open source diverse da quelle specificate inApplicazioni supportate in un EMR cluster Amazon con più nodi primari.

  • Nelle EMR versioni di Amazon da 5.23.0 a 5.36.2, vengono eseguiti solo due dei tre nodi primari per un cluster di gruppi di istanze HDFS NameNode.

  • Nelle EMR versioni 6.x e successive di Amazon, vengono eseguiti tutti e tre i nodi primari di un gruppo di istanze HDFS NameNode.

Considerazioni per la configurazione della sottorete:

  • Un EMR cluster Amazon con più nodi primari può risiedere solo in una zona di disponibilità o sottorete. Amazon EMR non può sostituire un nodo primario guasto se la sottorete è completamente utilizzata o ha un numero di sottoscrizioni eccessivo in caso di failover. Per evitare questo scenario, si consiglia di dedicare un'intera sottorete a un EMR cluster Amazon. Inoltre, assicurati che nella sottorete siano disponibili sufficienti indirizzi IP privati.

Considerazioni per la configurazione dei nodi core:

  • Per garantire che anche i nodi principali siano altamente disponibili, ti consigliamo di avviare almeno quattro nodi principali. Se decidi di avviare un cluster più piccolo con tre o meno nodi principali, imposta dfs.replication parameter almeno quattro 2 HDFS per avere una DFS replica sufficiente. Per ulteriori informazioni, consulta la sezione HDFSconfigurazione.

avvertimento
  1. L'impostazione dfs.replication su 1 nei cluster con meno di quattro nodi può causare la perdita di HDFS dati in caso di interruzione di un singolo nodo. Ti consigliamo di utilizzare un cluster con almeno quattro nodi principali per i carichi di lavoro di produzione.

  2. Amazon non EMR consentirà ai cluster di scalare i nodi principali sottostantidfs.replication. Ad esempio, se dfs.replication = 2, il numero minimo di nodi principali è 2.

  3. Quando utilizzi il dimensionamento gestito, il dimensionamento automatico o scegli di dimensionare manualmente il cluster, ti consigliamo di impostare dfs.replication su 2 o su un valore superiore.

Considerazioni per l'impostazione di allarmi sui parametri:

  • Amazon EMR non fornisce metriche specifiche per le applicazioni relative a o. HDFS YARN Ti consigliamo di configurare gli allarmi per monitorare il conteggio delle istanze dei nodi primari. Configura gli allarmi utilizzando i seguenti CloudWatch parametri di Amazon:MultiMasterInstanceGroupNodesRunning,MultiMasterInstanceGroupNodesRunningPercentage, o. MultiMasterInstanceGroupNodesRequested CloudWatch ti avviserà in caso di guasto e sostituzione del nodo primario.

    • Se il MultiMasterInstanceGroupNodesRunningPercentage è inferiore a 1.0 e superiore a 0.5, il cluster può avere perso un nodo primario. In questa situazione, Amazon EMR tenta di sostituire un nodo primario.

    • Se il MultiMasterInstanceGroupNodesRunningPercentage è inferiore a 0.5, due nodi primari potrebbero avere riscontrato errori. In questo caso, il quorum viene perso e il cluster non può essere recuperato. È necessario eseguire manualmente la migrazione dei dati al di fuori del cluster.

    Per ulteriori informazioni, consulta Impostazione di allarmi per i parametri.