Monitoraggio delle EMR metriche di Amazon con CloudWatch - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio delle EMR metriche di Amazon con CloudWatch

Le metriche vengono aggiornate ogni cinque minuti e raccolte e inviate automaticamente CloudWatch per ogni cluster AmazonEMR. Questo intervallo non è configurabile. Non è previsto alcun addebito per i EMR parametri Amazon riportati in CloudWatch. I parametri di datapoint di cinque minuti vengono tenuti in archivio per 63 giorni, dopodiché vengono eliminati.

Come posso usare i EMR parametri di Amazon?

La tabella seguente mostra gli usi comuni delle metriche riportate da AmazonEMR. Questi suggerimenti sono solo introduttivi e non costituiscono un elenco completo. Per un elenco completo delle metriche riportate da AmazonEMR, consultaMetriche riportate da Amazon EMR in CloudWatch.

Come...? Parametri rilevanti
Monitorare l'avanzamento del cluster Esaminare i parametri RunningMapTasks, RemainingMapTasks, RunningReduceTasks e RemainingReduceTasks.
Rilevare cluster inattivi Il parametro IsIdle verifica se un cluster è attivo anche se non esegue attività. È possibile impostare un allarme di modo che venga attivato quando il cluster è rimasto inattivo per un determinato periodo di tempo, ad esempio 30 minuti.
Rilevare quando la capacità di storage di un nodo è esaurita La MRUnhealthyNodes metrica rileva quando uno o più nodi principali o di attività esauriscono lo spazio di archiviazione su disco locale e passano a uno UNHEALTHY YARN stato. Ad esempio, i nodi principali o attività stanno esaurendo spazio su disco e non saranno in grado di eseguire attività.
Rileva quando un cluster esaurisce la capacità d'archiviazione La HDFSUtilization metrica monitora la HDFS capacità combinata del cluster e può richiedere il ridimensionamento del cluster per aggiungere altri nodi principali. Ad esempio, l'HDFSutilizzo è elevato, il che può influire sui lavori e sullo stato del cluster.
Rileva quando un cluster è in esecuzione a capacità ridotta Il parametro MRLostNodes tiene traccia quando uno o più nodi principali o attività non sono in grado di comunicare con il nodo master. Ad esempio, il nodo principale o attività non è raggiungibile dal nodo master.

Per ulteriori informazioni, vedere Il EMR cluster Amazon termina con NO_ _ LEFT e nodi principali SLAVE _BY_ FAILED MASTER e AWSSupport-A nalyzeEMRLogs.

Accedi alle CloudWatch metriche per Amazon EMR

Puoi visualizzare le metriche che Amazon EMR riporta sull' CloudWatch utilizzo della EMR console Amazon o della CloudWatch console. Puoi anche recuperare le metriche utilizzando il CloudWatch CLI comando mon-get-stats o il. CloudWatch GetMetricStatistics API Per ulteriori informazioni sulla visualizzazione o il recupero dei parametri per l'EMRutilizzo di Amazon CloudWatch, consulta la Amazon CloudWatch User Guide.

Console
Per visualizzare le metriche con la console
  1. Accedi a e apri AWS Management Console la EMR console Amazon all'indirizzo https://console.aws.amazon.com/emr.

  2. EC2Nel riquadro di navigazione a sinistra, scegli Cluster, quindi scegli il cluster di cui desideri visualizzare le metriche. EMR Si apre la pagina dei dettagli del cluster.

  3. Seleziona la scheda Monitoring (Monitoraggio) nella pagina dei dettagli del cluster. Scegli una qualsiasi delle schede Cluster status (Stato del cluster), Node status (Stato del nodo) o Inputs and outputs (Input e output) per caricare i report sull'avanzamento e sull'integrità del cluster.

  4. Dopo avere scelto un parametro da visualizzare, puoi ingrandire ciascun grafico. Per filtrare l'intervallo di tempo del grafico, seleziona un'opzione precompilata o scegli Custom (Personalizzato).

Metriche riportate da Amazon EMR in CloudWatch

Le tabelle seguenti elencano le metriche che Amazon EMR riporta nella console e a cui invia i dati. CloudWatch

EMRMetriche Amazon

Amazon EMR invia dati per diverse metriche a CloudWatch. Tutti i EMR cluster Amazon inviano automaticamente i parametri a intervalli di cinque minuti. I parametri sono conservati per due settimane; dopo tale periodo, i dati vengono eliminati.

Lo spazio dei nomi AWS/ElasticMapReduce include i parametri descritti di seguito.

Nota

Amazon EMR estrae i parametri da un cluster. Se un cluster diventa inaccessibile, non viene indicato alcun parametro fino a che il cluster non è di nuovo disponibile.

I seguenti parametri sono disponibili per i cluster sui quali sono in esecuzione le versioni 2.x di Hadoop.

Parametro Descrizione
Stato del cluster

IsIdle

Indica che un cluster non è più in esecuzione ma è ancora attivo e genera spese. È impostato su 1 se non vi sono task e processi in esecuzione, altrimenti è impostato su 0. Questo valore viene verificato a intervalli di cinque minuti e un valore 1 indica unicamente l'inattività del cluster al momento della verifica e non durante i cinque minuti. Per evitare falsi positivi, devi attivare un allarme quando questo valore è 1 durante due o più verifiche consecutive di cinque minuti. Ad esempio, puoi attivare un allarme se questo valore è 1 per trenta minuti o più.

Caso d'uso: monitorare le prestazioni del cluster

Unità: booleane

ContainerAllocated

Il numero di contenitori di risorse allocati da. ResourceManager

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

ContainerReserved

Il numero di container riservati.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

ContainerPending

Il numero di container nella coda non ancora allocati.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

ContainerPendingRatio

Il rapporto tra contenitori in sospeso e contenitori allocati (ContainerPendingRatio = ContainerPending /). ContainerAllocated Se ContainerAllocated = 0, allora ContainerPendingRatio =. ContainerPending Il valore di ContainerPendingRatio rappresenta un numero, non una percentuale. Questo valore è utile per il dimensionamento delle risorse del cluster in funzione del comportamento di attribuzione dei container.

Unità: numero

AppsCompleted

Il numero di candidature presentate sono state completate. YARN

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

AppsFailed

Il numero di domande presentate non è stato completato. YARN

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

AppsKilled

Il numero di domande presentate YARN è stato annullato.

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

AppsPending

Il numero di domande presentate YARN è in sospeso.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

AppsRunning

Il numero di candidature inviate YARN sono in esecuzione.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

AppsSubmitted

Il numero di candidature presentate aYARN.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

Stato del nodo

CoreNodesRunning

Il numero di nodi principali attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

CoreNodesPending

Il numero di nodi principali in attesa di assegnazione. È possibile che non tutti i nodi principali richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

LiveDataNodes

La percentuale di nodi dati che ricevono attività da Hadoop.

Caso d'uso: monitorare lo stato del cluster

Unità: percentuale

MRTotalNodes

Il numero di nodi attualmente disponibili per le MapReduce offerte di lavoro. Equivalente alla YARN metricamapred.resourcemanager.TotalNodes.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MRActiveNodes

Il numero di nodi che attualmente eseguono MapReduce attività o lavori. Equivalente alla YARN metricamapred.resourcemanager.NoOfActiveNodes.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MRLostNodes

Il numero di nodi ad MapReduce esso assegnati sono stati contrassegnati in uno LOST stato. Equivalente alla YARN metricamapred.resourcemanager.NoOfLostNodes.

Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster

Unità: numero

MRUnhealthyNodes

Il numero di nodi disponibili per i MapReduce lavori contrassegnati in uno UNHEALTHY stato. Equivalente alla YARN metricamapred.resourcemanager.NoOfUnhealthyNodes.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MRDecommissionedNodes

Il numero di nodi assegnati alle MapReduce applicazioni che sono state contrassegnate in uno DECOMMISSIONED stato. Equivalente alla YARN metricamapred.resourcemanager.NoOfDecommissionedNodes.

Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster

Unità: numero

MRRebootedNodes

Il numero di nodi disponibili MapReduce che sono stati riavviati e contrassegnati in uno stato. REBOOTED Equivalente alla metrica. YARN mapred.resourcemanager.NoOfRebootedNodes

Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster

Unità: numero

MultiMasterInstanceGroupNodesRunning

Il numero di nodi master in esecuzione.

Caso d'uso: monitorare l'errore e la sostituzione del nodo master

Unità: numero

MultiMasterInstanceGroupNodesRunningPercentage

La percentuale di nodi master in esecuzione sul numero dell'istanza del nodo master richiesto.

Caso d'uso: monitorare l'errore e la sostituzione del nodo master

Unità: percentuale

MultiMasterInstanceGroupNodesRequested

Il numero di nodi master richiesti.

Caso d'uso: monitorare l'errore e la sostituzione del nodo master

Unità: numero

IO

S3 BytesWritten

Il numero di byte scritti su Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

S3 BytesRead

Il numero di byte letti da Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

HDFSUtilization

La percentuale di HDFS storage attualmente utilizzata.

Caso d'uso: analizzare le prestazioni del cluster

Unità: percentuale

HDFSBytesRead

Il numero di byte da cui vengono letti. HDFS Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

HDFSBytesWritten

Il numero di byte scritti su. HDFS Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

MissingBlocks

Il numero di blocchi in cui non sono presenti replicheHDFS. Possono essere blocchi danneggiati.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

CorruptBlocks

Il numero di blocchi HDFS segnalati come danneggiati.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

TotalLoad

Il numero totale di trasferimenti di dati simultanei.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

MemoryTotalMB

La quantità totale di memoria nel cluster.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MemoryReservedMB

La quantità di memoria riservata.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MemoryAvailableMB

La quantità di memoria disponibile da allocare.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

YARNMemoryAvailablePercentage

La percentuale di memoria rimanente disponibile per YARN (YARNMemoryAvailablePercentage= MemoryAvailable MB/ MemoryTotal MB). Questo valore è utile per scalare le risorse del cluster in base all'utilizzo YARN della memoria.

Unità: percentuale

MemoryAllocatedMB

La quantità di memoria allocata al cluster.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

PendingDeletionBlocks

Il numero di blocchi contrassegnati per l'eliminazione.

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

UnderReplicatedBlocks

Il numero di blocchi che devono essere replicati una o più volte.

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

DfsPendingReplicationBlocks

Lo stato della replica dei blocchi: blocchi in corso di replica, età delle richieste di replica e richieste di replica non riuscite.

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

CapacityRemainingGB

La quantità di capacità residua HDFS del disco.

Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster

Unità: numero

Di seguito sono descritti i parametri Hadoop 1:

Parametro Descrizione
Stato del cluster

IsIdle

Indica che un cluster non è più in esecuzione ma è ancora attivo e genera spese. È impostato su 1 se non vi sono task e processi in esecuzione, altrimenti è impostato su 0. Questo valore viene verificato a intervalli di cinque minuti e un valore 1 indica unicamente l'inattività del cluster al momento della verifica e non durante i cinque minuti. Per evitare falsi positivi, devi attivare un allarme quando questo valore è 1 durante due o più verifiche consecutive di cinque minuti. Ad esempio, puoi attivare un allarme se questo valore è 1 per trenta minuti o più.

Caso d'uso: monitorare le prestazioni del cluster

Unità: booleane

JobsRunning

Il numero di processi nel cluster attualmente in esecuzione.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

JobsFailed

Il numero di processi nel cluster non riusciti.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

Mappatura/Riduzione

MapTasksRunning

Il numero di task di mappatura in esecuzione per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MapTasksRemaining

Il numero di task di mappatura rimanenti per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici. Un task di mappatura rimanente è un task il cui stato non è Running, Killed o Completed.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

MapSlotsOpen

La capacità dei task di mappatura non utilizzata. Viene calcolata come numero massimo di task di mappatura per un determinato cluster, meno il numero totale di task di mappatura attualmente in esecuzione in quel cluster.

Caso d'uso: analizzare le prestazioni del cluster

Unità: numero

RemainingMapTasksPerSlot

La proporzione tra i task di mappatura totali rimanenti e gli slot di mappatura totali disponibili nel cluster.

Caso d'uso: analizzare le prestazioni del cluster

Unità: proporzione

ReduceTasksRunning

Il numero di task di riduzione in esecuzione per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

ReduceTasksRemaining

Il numero di task di riduzione rimanenti per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici.

Caso d'uso: monitorare l'avanzamento del cluster

Unità: numero

ReduceSlotsOpen

La capacità dei task di riduzione non utilizzata. Viene calcolata come capacità massima dei task di riduzione per un determinato cluster, meno il numero di task di riduzione attualmente in esecuzione in quel cluster.

Caso d'uso: analizzare le prestazioni del cluster

Unità: numero

Stato del nodo

CoreNodesRunning

Il numero di nodi principali attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

CoreNodesPending

Il numero di nodi principali in attesa di assegnazione. È possibile che non tutti i nodi principali richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

LiveDataNodes

La percentuale di nodi dati che ricevono attività da Hadoop.

Caso d'uso: monitorare lo stato del cluster

Unità: percentuale

TaskNodesRunning

Il numero di nodi di task attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

TaskNodesPending

Il numero di nodi di task in attesa di assegnazione. È possibile che non tutti i nodi di task richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

LiveTaskTrackers

La percentuale di tracker di task operativi.

Caso d'uso: monitorare lo stato del cluster

Unità: percentuale

IO

S3 BytesWritten

Il numero di byte scritti su Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

S3 BytesRead

Il numero di byte letti da Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

HDFSUtilization

La percentuale di HDFS storage attualmente utilizzata.

Caso d'uso: analizzare le prestazioni del cluster

Unità: percentuale

HDFSBytesRead

Il numero di byte da cui vengono letti. HDFS

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

HDFSBytesWritten

Il numero di byte scritti su. HDFS

Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster

Unità: numero

MissingBlocks

Il numero di blocchi in cui non HDFS è presente alcuna replica. Possono essere blocchi danneggiati.

Caso d'uso: monitorare lo stato del cluster

Unità: numero

TotalLoad

Il numero totale attuale di lettori e scrittori riportato da tutti DataNodes in un cluster.

Caso d'uso: diagnosticare in quale misura un I/O elevato contribuisce al peggioramento delle prestazioni di esecuzione dei processi. I nodi di lavoro che eseguono il DataNode demone devono inoltre eseguire operazioni di mappatura e ridurre le attività. TotalLoad Valori costantemente elevati nel tempo possono indicare che un I/O elevato potrebbe contribuire a ridurre le prestazioni. Picchi occasionali di questo valore sono comuni e non indicano un problema.

Unità: numero

Parametri della capacità del cluster

i parametri seguenti indicano le capacità correnti o di destinazione di un cluster. Queste metriche sono disponibili solo quando sono abilitati il dimensionamento gestito o la terminazione automatica.

Per i cluster composti da parchi istanze, i parametri della capacità del cluster vengono misurate in Units. Per i cluster composti da gruppi di istanze, i parametri della capacità del cluster vengono misurate in Nodes o in VCPU in base al tipo di unità utilizzato nella policy di dimensionamento gestito. Per ulteriori informazioni, consulta Using EMR -managed scaling nella Amazon EMR Management Guide.

Parametro Descrizione
  • TotalUnitsRequested

  • TotalNodesRequested

  • TotalVCPURequested

Il numero totale previsto di componenti units/nodes/vCPUs in un cluster, determinato dalla scalabilità gestita.

Unità: numero

  • TotalUnitsRunning

  • TotalNodesRunning

  • TotalVCPURunning

Il numero totale corrente di units/nodes/vCPUs disponibilità in un cluster in esecuzione. Quando viene richiesto il ridimensionamento di un cluster, questo parametro verrà aggiornato dopo l'aggiunta o la rimozione delle nuove istanze dal cluster.

Unità: numero

  • CoreUnitsRequested

  • CoreNodesRequested

  • CoreVCPURequested

Il numero di destinazione CORE units/nodes/vCPUs in un cluster determinato dalla scalabilità gestita.

Unità: numero

  • CoreUnitsRunning

  • CoreNodesRunning

  • CoreVCPURunning

Il numero attuale di operazioni in CORE units/nodes/vCPUs esecuzione in un cluster.

Unità: numero

  • TaskUnitsRequested

  • TaskNodesRequested

  • TaskVCPURequested

Il numero di destinazione TASK units/nodes/vCPUs in un cluster determinato dalla scalabilità gestita.

Unità: numero

  • TaskUnitsRunning

  • TaskNodesRunning

  • TaskVCPURunning

Il numero attuale di operazioni in TASK units/nodes/vCPUs esecuzione in un cluster.

Unità: numero

Amazon EMR emette i seguenti parametri con una granularità di un minuto quando abiliti la terminazione automatica utilizzando una politica di terminazione automatica. Alcune metriche sono disponibili solo per EMR le versioni di Amazon 6.4.0 e successive. Per ulteriori informazioni sulla terminazione automatica, consulta Utilizzo di una politica di terminazione automatica per la pulizia dei cluster Amazon EMR.

Parametro Descrizione
TotalNotebookKernels Il numero totale di kernel notebook in esecuzione e inattivi sul cluster.

Questa metrica è disponibile solo per EMR le versioni Amazon 6.4.0 e successive.

AutoTerminationIsClusterIdle Indica se il cluster è in uso.

Un valore di 0 indica che il cluster è in uso attivo da uno dei seguenti componenti:

  • Un'applicazione YARN

  • HDFS

  • Un notebook

  • Un'interfaccia utente on-cluster, come Spark History Server

Un valore di 1 indica che il cluster è inattivo. Amazon EMR verifica l'inattività continua del cluster (AutoTerminationIsClusterIdle= 1). Quando il tempo di inattività di un cluster è uguale al IdleTimeout valore della tua politica di terminazione automatica, Amazon EMR chiude il cluster.

Dimensioni per i EMR parametri di Amazon

EMRI dati di Amazon possono essere filtrati utilizzando una qualsiasi delle dimensioni nella tabella seguente.

Dimensione Descrizione
JobFlowId Uguale all'ID del cluster che è l'identificatore univoco di un cluster nel formato j-XXXXXXXXXXXXX. Trova questo valore facendo clic sul cluster nella EMR console Amazon.