Comprendi i tipi di nodi in AmazonEMR: nodi primari, core e task - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprendi i tipi di nodi in AmazonEMR: nodi primari, core e task

Utilizza questa sezione per capire come Amazon EMR utilizza ciascuno di questi tipi di nodi e come base per la pianificazione della capacità dei cluster.

Nodo primario

Il nodo primario gestisce il cluster ed esegue in genere i componenti primari delle applicazioni distribuite. Ad esempio, il nodo primario esegue il YARN ResourceManager servizio per gestire le risorse per le applicazioni. Inoltre, esegue il HDFS NameNode servizio, tiene traccia dello stato dei lavori inviati al cluster e monitora lo stato dei gruppi di istanze.

Per monitorare l'avanzamento di un cluster e interagire direttamente con le applicazioni, puoi connetterti al nodo primario SSH come utente Hadoop. Per ulteriori informazioni, consulta Connect al nodo primario EMR del cluster Amazon tramite SSH. La connessione al nodo primario consente di accedere direttamente a directory e file, ad esempio i file di log Hadoop. Per ulteriori informazioni, consulta Visualizza i file di EMR registro di Amazon. Puoi anche visualizzare le interfacce utente pubblicate dalle applicazioni come siti Web in esecuzione sul nodo primario. Per ulteriori informazioni, consulta Visualizza le interfacce Web ospitate su cluster Amazon EMR.

Nota

Con Amazon EMR 5.23.0 e versioni successive, puoi avviare un cluster con tre nodi primari per supportare l'elevata disponibilità di applicazioni come YARN Resource Manager, Spark HDFS NameNode, Hive e Ganglia. Con questa caratteristica, il nodo primario non rappresenta più un potenziale singolo punto di errore. Se uno dei nodi primari si guasta, Amazon EMR esegue automaticamente il failover su un nodo primario in standby e sostituisce il nodo primario guasto con uno nuovo con le stesse operazioni di configurazione e bootstrap. Per ulteriori informazioni, consulta la sezione Plan and Configure Primary Nodes (Pianificazione e configurazione dei nodi primari).

Nodi principali

I nodi core sono gestiti dal nodo primario. I nodi principali eseguono il demone Data Node per coordinare l'archiviazione dei dati come parte dell'Hadoop Distributed File System (). HDFS Inoltre, eseguono il daemon Task Tracker e altre attività di calcolo parallelo sui dati richieste dalle applicazioni installate. Ad esempio, un nodo principale esegue YARN NodeManager daemon, task MapReduce Hadoop ed esecutori Spark.

Esiste un solo gruppo di istanze principale o una flotta di istanze per cluster, ma possono esserci più nodi in esecuzione su più istanze Amazon nel gruppo di EC2 istanze o nel parco di istanze. Con i gruppi di istanze, puoi aggiungere e rimuovere EC2 istanze Amazon mentre il cluster è in esecuzione. È inoltre possibile impostare la scalabilità automatica per aggiungere istanze in base al valore di un parametro. Per ulteriori informazioni sull'aggiunta e la rimozione di EC2 istanze Amazon con la configurazione dei gruppi di istanze, consultaUsa Amazon EMR Cluster Scaling per adattarti ai carichi di lavoro in continua evoluzione.

Con i parchi istanze, puoi aggiungere e rimuovere agevolmente istanze modificando le capacità target del parco istanze su on demand e Spot di conseguenza. Per ulteriori informazioni sulle capacità target, consulta Opzioni del parco istanze.

avvertimento

La rimozione HDFS dei demoni da un nodo principale in esecuzione o la chiusura dei nodi principali comporta la perdita di dati. Fai attenzione quando configuri i nodi principali per l'utilizzo delle istanze Spot. Per ulteriori informazioni, consulta Quando occorre utilizzare le istanze Spot?.

Nodi attività

È possibile utilizzare i nodi task per aggiungere potenza per eseguire attività di calcolo parallele sui dati, come le attività Hadoop e gli esecutori MapReduce Spark. I nodi di attività non eseguono il daemon Data Node, né memorizzano dati in esso. HDFS Come per i nodi principali, puoi aggiungere nodi di attività a un cluster aggiungendo istanze Amazon a un gruppo di EC2 istanze uniforme esistente o modificando le capacità target per un parco di istanze di attività.

Con la configurazione del gruppo di istanze uniforme puoi avere un totale di 48 gruppi di istanze attività. La possibilità di aggiungere gruppi di istanze in questo modo ti consente di combinare tipi di EC2 istanze Amazon e opzioni di prezzo, come istanze On-Demand e istanze Spot. Questo consente di rispondere ai requisiti di carico di lavoro in modo conveniente.

Con la configurazione del parco istanze, la possibilità di combinare tipi di istanze e opzioni di acquisto è integrata, perciò esiste un solo parco istanze attività.

Poiché le istanze Spot vengono spesso utilizzate per eseguire nodi di attività, Amazon EMR dispone di funzionalità predefinite per la pianificazione dei YARN processi in modo che l'esecuzione dei processi non fallisca quando i nodi di attività in esecuzione su istanze Spot vengono terminati. Amazon EMR lo fa consentendo ai processi master delle applicazioni di essere eseguiti solo sui nodi principali. Il processo master dell'applicazione controlla i processi in esecuzione e deve rimanere attivo per tutta la durata del processo.

Amazon EMR versione 5.19.0 e successive utilizza la funzionalità integrata di etichette dei YARN nodi per raggiungere questo obiettivo. (Le versioni precedenti utilizzavano una patch di codice). Le proprietà nelle classificazioni yarn-site e di capacity-scheduler configurazione sono configurate di default in modo che YARN capacity-scheduler e fair-scheduler sfruttino le etichette dei nodi. Amazon etichetta EMR automaticamente i nodi principali con l'COREetichetta e imposta le proprietà in modo che i master dell'applicazione siano pianificati solo sui nodi con l'COREetichetta. La modifica manuale delle proprietà correlate nelle classificazioni di configurazione yarn-site e capacity-scheduler, o direttamente nei XML file associati, potrebbe interrompere questa funzionalità o modificare questa funzionalità.

A partire dalla serie di release di Amazon EMR 6.x, la funzionalità delle etichette dei YARN nodi è disabilitata per impostazione predefinita. Per impostazione predefinita, i processi primari dell'applicazione possono essere eseguiti sia sui nodi core sia su quelli attività. Puoi abilitare la funzionalità delle etichette dei YARN nodi configurando le seguenti proprietà:

  • yarn.node-labels.enabled: true

  • yarn.node-labels.am.default-node-label-expression: 'CORE'

A partire dalla serie di release di Amazon EMR 7.x, Amazon EMR assegna le etichette dei YARN nodi alle istanze in base al tipo di mercato, ad esempio On-Demand o Spot. Puoi abilitare le etichette dei nodi e limitare i processi applicativi a ON_ DEMAND configurando le seguenti proprietà:

yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'ON_DEMAND'

Se utilizzi Amazon EMR 7.0 o versioni successive, puoi limitare il processo di applicazione ai nodi con l'CODEetichetta utilizzando la seguente configurazione:

yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'CORE'

Per le EMR versioni 7.2 e successive di Amazon, se il cluster utilizza la scalabilità gestita con etichette dei nodi, Amazon EMR cercherà di ridimensionare il cluster in base al processo applicativo e alla domanda dell'esecutore in modo indipendente.

Ad esempio, se utilizzi le EMR versioni 7.2 o successive di Amazon e limiti il processo applicativo ai ON_DEMAND nodi, la scalabilità gestita aumenta la scalabilità ON_DEMAND dei nodi se la domanda del processo applicativo aumenta. Allo stesso modo, se limiti il processo di applicazione ai CORE nodi, la scalabilità gestita aumenta la scalabilità dei CORE nodi se la domanda del processo applicativo aumenta.

Per informazioni su proprietà specifiche, consulta EMRImpostazioni Amazon per prevenire errori di lavoro a causa della chiusura dell'istanza Spot del nodo di attività.