Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Surveiller EMR les métriques d'Amazon avec CloudWatch
Les métriques sont mises à jour toutes les cinq minutes et collectées et transmises automatiquement CloudWatch pour chaque EMR cluster Amazon. Cet intervalle n'est pas configurable. Les EMR statistiques Amazon rapportées dans le document sont gratuites CloudWatch. Ces métriques de points de données de cinq minutes sont archivées pendant 63 jours, après quoi les données sont supprimées.
Comment utiliser les EMR métriques Amazon ?
Le tableau suivant présente les utilisations courantes des métriques signalées par AmazonEMR. Voici quelques suggestions pour vous aider à démarrer, qui ne forment pas une liste exhaustive. Pour obtenir la liste complète des statistiques signalées par AmazonEMR, consultezStatistiques publiées par Amazon EMR dans CloudWatch.
Comment... ? | Métriques pertinentes |
---|---|
Suivre la progression de mon cluster | Prenez en compte les métriques RunningMapTasks , RemainingMapTasks , RunningReduceTasks et RemainingReduceTasks . |
Détecter les clusters inactifs | La métrique IsIdle vérifie si un cluster est présent mais n'exécute actuellement aucune tâche. Vous pouvez définir une alarme afin qu'elle se déclenche lorsque le cluster est inactif pendant une période donnée, par exemple 30 minutes. |
Détecter lorsqu'un nœud ne dispose plus d'un espace de stockage suffisant | La MRUnhealthyNodes métrique suit le moment où un ou plusieurs nœuds principaux ou de tâches sont à court de stockage sur disque local et passent à un UNHEALTHY YARN état. Par exemple, les nœuds principaux ou les nœuds de tâches manquent d'espace disque et ne seront pas en mesure d'exécuter des tâches. |
Détecter lorsqu'un cluster ne dispose plus d'un espace de stockage suffisant | La HDFSUtilization métrique surveille la HDFS capacité combinée du cluster et peut nécessiter le redimensionnement du cluster pour ajouter d'autres nœuds principaux. Par exemple, le HDFS taux d'utilisation est élevé, ce qui peut affecter les emplois et la santé du cluster. |
Détecter lorsqu'un cluster fonctionne à capacité réduite | La métrique MRLostNodes surveille les problèmes de communication de plusieurs nœuds principaux ou de tâches avec le nœud principal. Par exemple, le nœud principal ou le nœud de tâches n'est pas accessible par le nœud principal. |
Pour plus d'informations, reportez-vous aux sections Le EMR cluster Amazon se termine avec NO_ _ LEFT et les nœuds principaux SLAVE _BY_ FAILED MASTER et AWSSupport-A nalyzeEMRLogs.
CloudWatch Métriques d'accès pour Amazon EMR
Vous pouvez consulter les statistiques communiquées par Amazon EMR à CloudWatch l'aide de la EMR console Amazon ou de la CloudWatch console. Vous pouvez également récupérer des métriques à l'aide de la CloudWatch CLI commande mon-get-stats
ou du CloudWatch GetMetricStatistics
API. Pour plus d'informations sur l'affichage ou la récupération de métriques pour Amazon à EMR l'aide d'Amazon CloudWatch, consultez le guide de CloudWatch l'utilisateur Amazon.
Statistiques publiées par Amazon EMR dans CloudWatch
Les tableaux suivants répertorient les métriques qu'Amazon EMR indique dans la console et vers CloudWatch lesquelles il envoie des messages.
EMRMétriques Amazon
Amazon EMR envoie les données de plusieurs métriques à CloudWatch. Tous les EMR clusters Amazon envoient automatiquement des métriques toutes les cinq minutes. Les métriques sont archivées pendant deux semaines ; après cette période, les données sont supprimées.
L’espace de noms AWS/ElasticMapReduce
inclut les métriques suivantes.
Note
Amazon EMR extrait les statistiques d'un cluster. Si un cluster devient inaccessible, aucune des métriques n'est signalée jusqu'à ce que le cluster redevienne disponible.
Les métriques suivantes sont disponibles pour les clusters exécutant les versions 2.x de Hadoop.
Métrique | Description |
---|---|
Statut du cluster | |
IsIdle |
Indique qu'un cluster ne s'exécute plus, mais est encore en actif et génère des frais. Il est défini sur 1 si aucune tâche ni aucun travail n'est en cours d'exécution, et défini sur 0 dans le cas contraire. Cette valeur est vérifiée à intervalles de cinq minutes et une valeur de 1 indique uniquement que le cluster a été inactif lors de la vérification, et non pas qu'il a été inactif pendant les cinq minutes entières. Pour éviter les fausses erreurs, vous devez déclencher une alarme lorsque cette valeur est 1 pendant plusieurs contrôles consécutifs de 5 minutes. Par exemple, vous pouvez déclencher une alarme pour cette valeur si elle renvoie 1 pendant au moins 30 minutes. Cas d'utilisation : surveiller les performances du cluster Unités : booléennes |
ContainerAllocated |
Le nombre de conteneurs de ressources alloués par leResourceManager. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
ContainerReserved |
Nombre de conteneurs réservés. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
ContainerPending |
Nombre de conteneurs dans la file d'attente qui n'ont pas encore été alloués. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
ContainerPendingRatio |
Le rapport entre les conteneurs en attente et les conteneurs alloués (ContainerPendingRatio = ContainerPending / ContainerAllocated). Si ContainerAllocated = 0, alors ContainerPendingRatio =ContainerPending. La valeur de ContainerPendingRatio représente un nombre et non un pourcentage. Cette valeur est utile pour dimensionner les ressources de cluster en fonction du comportement d'attribution des conteneurs. Unités : nombre |
AppsCompleted |
Le nombre de demandes soumises à YARN ce formulaire sont terminées. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
AppsFailed |
Le nombre de demandes YARN qui y ont été soumises n'ont pas été traitées. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
AppsKilled |
Le nombre de demandes soumises dans YARN ce cadre a été supprimé. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
AppsPending |
Le nombre de demandes YARN qui y sont soumises sont en attente. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
AppsRunning |
Le nombre de candidatures soumises dans YARN ce cadre sont en cours d'exécution. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
AppsSubmitted |
Le nombre de demandes soumises àYARN. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
Statut du nœud | |
CoreNodesRunning |
Nombre de nœuds principaux actifs. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
CoreNodesPending |
Nombre de nœuds principaux en attente d'attribution. Il se peut que tous les nœuds principaux demandés ne soient pas immédiatement accessibles ; cette métrique indique les demandes en attente. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
LiveDataNodes |
Pourcentage de nœuds de données qui reçoivent des tâches de Hadoop. Cas d'utilisation : surveiller l'intégrité du cluster Unités : pourcentage |
MRTotalNodes |
Le nombre de nœuds actuellement disponibles pour les MapReduce tâches. Équivalent au YARN système métrique Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MRActiveNodes |
Le nombre de nœuds exécutant actuellement MapReduce des tâches ou des tâches. Équivalent au YARN système métrique Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MRLostNodes |
Le nombre de nœuds alloués MapReduce qui ont été marqués dans un LOST état. Équivalent au YARN système métrique Cas d'utilisation : surveiller l'intégrité du cluster, surveiller la progression du cluster Unités : nombre |
MRUnhealthyNodes |
Le nombre de nœuds disponibles pour les MapReduce tâches marquées dans un UNHEALTHY état. Équivalent au YARN système métrique Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MRDecommissionedNodes |
Le nombre de nœuds alloués aux MapReduce applications qui ont été marquées dans un DECOMMISSIONED état. Équivalent au YARN système métrique Cas d'utilisation : surveiller l'intégrité du cluster, surveiller la progression du cluster Unités : nombre |
MRRebootedNodes |
Le nombre de nœuds disponibles MapReduce qui ont été redémarrés et marqués dans un REBOOTED état. Équivalent au YARN système métrique Cas d'utilisation : surveiller l'intégrité du cluster, surveiller la progression du cluster Unités : nombre |
MultiMasterInstanceGroupNodesRunning |
Le nombre de nœuds maîtres en cours d'exécution. Cas d'utilisation : surveiller l'échec et le remplacement du nœud maître Unités : nombre |
MultiMasterInstanceGroupNodesRunningPercentage |
Le pourcentage de nœuds principaux en cours d'exécution sur le nombre d'instances de nœuds principaux demandées. Cas d'utilisation : surveiller l'échec et le remplacement du nœud maître Unités : pourcentage |
MultiMasterInstanceGroupNodesRequested |
Le nombre de nœuds maîtres demandés. Cas d'utilisation : surveiller l'échec et le remplacement du nœud maître Unités : nombre |
E/S | |
S3 BytesWritten |
Nombre d'octets écrits sur Amazon S3. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
S3 BytesRead |
Nombre d'octets lus à partir d'Amazon S3. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
HDFSUtilization |
Pourcentage de HDFS stockage actuellement utilisé. Cas d'utilisation : analyser les performances du cluster Unités : pourcentage |
HDFSBytesRead |
Le nombre d'octets lusHDFS. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
HDFSBytesWritten |
Le nombre d'octets écrits dansHDFS. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
MissingBlocks |
Le nombre de blocs dans lesquels il n'y HDFS a pas de répliques. Il peut s'agir de blocs corrompus. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
CorruptBlocks |
Le nombre de blocs HDFS signalés comme corrompus. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
TotalLoad |
Nombre total de transferts de données simultanés. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
MemoryTotalMB |
Quantité totale de mémoire dans le cluster. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MemoryReservedMB |
Quantité de mémoire réservée. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MemoryAvailableMB |
Quantité de mémoire disponible à allouer. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
YARNMemoryAvailablePercentage |
Pourcentage de mémoire restante disponible jusqu'à YARN (YARNMemoryAvailablePercentage= MemoryAvailable MemoryTotal Mo/Mo). Cette valeur est utile pour dimensionner les ressources du cluster en fonction de l'utilisation YARN de la mémoire. Unités : pourcentage |
MemoryAllocatedMB |
Quantité de mémoire allouée au cluster. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
PendingDeletionBlocks |
Nombre de blocs marqués pour la suppression. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
UnderReplicatedBlocks |
Nombre de blocs devant être répliqués une ou plusieurs fois. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
DfsPendingReplicationBlocks |
État de la réplication des blocs : blocs en cours de réplication, l'âge des demandes de réplication et demandes de réplication ayant échoué. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
CapacityRemainingGo |
La quantité de capacité de HDFS disque restante. Cas d'utilisation : surveiller la progression du cluster, surveiller l'intégrité du cluster Unités : nombre |
Voici les métriques Hadoop 1 :
Métrique | Description |
---|---|
Statut du cluster | |
IsIdle |
Indique qu'un cluster ne s'exécute plus, mais est encore en actif et génère des frais. Il est défini sur 1 si aucune tâche ni aucun travail n'est en cours d'exécution, et défini sur 0 dans le cas contraire. Cette valeur est vérifiée à intervalles de cinq minutes et une valeur de 1 indique uniquement que le cluster a été inactif lors de la vérification, et non pas qu'il a été inactif pendant les cinq minutes entières. Pour éviter les fausses erreurs, vous devez déclencher une alarme lorsque cette valeur est 1 pendant plusieurs contrôles consécutifs de 5 minutes. Par exemple, vous pouvez déclencher une alarme pour cette valeur si elle renvoie 1 pendant au moins 30 minutes. Cas d'utilisation : surveiller les performances du cluster Unités : booléennes |
JobsRunning |
Nombre de tâches en cours d'exécution dans le cluster. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
JobsFailed |
Nombre de tâches qui ont échoué dans le cluster. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
Mapper/Réduire | |
MapTasksRunning |
Nombre de tâches de mappage en cours d'exécution pour chaque tâche. Si un planificateur est installé et plusieurs tâches sont en cours d'exécution, plusieurs graphiques sont générés. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MapTasksRemaining |
Nombre de tâches de mappage restantes pour chaque tâche. Si un planificateur est installé et plusieurs tâches sont en cours d'exécution, plusieurs graphiques sont générés. Une tâche de mappage restante correspond à une tâche dont l'état n'est pas l'un des états suivants : en cours d'exécution, désactivé ou terminé. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
MapSlotsOpen |
Capacité de tâche de mappage inutilisée. Elle est calculée sur la base du nombre maximal de tâches de mappage pour un cluster donné, moins le nombre total de tâches de mappage en cours d'exécution dans ce cluster. Cas d'utilisation : analyser les performances du cluster Unités : nombre |
RemainingMapTasksPerSlot |
Rapport entre les tâches de mappage total restantes et le nombre total d'emplacements de mappage disponibles dans le cluster. Cas d'utilisation : analyser les performances du cluster Unités : rapport |
ReduceTasksRunning |
Nombre de tâches de réduction en cours d'exécution pour chaque tâche. Si un planificateur est installé et plusieurs tâches sont en cours d'exécution, plusieurs graphiques sont générés. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
ReduceTasksRemaining |
Nombre de tâches de réduction restantes pour chaque tâche. Si un planificateur est installé et plusieurs tâches sont en cours d'exécution, plusieurs graphiques sont générés. Cas d'utilisation : surveiller la progression du cluster Unités : nombre |
ReduceSlotsOpen |
Capacité des tâches de réduction inutilisée. Elle est calculée sur la base de la capacité des tâches de réduction maximale pour un cluster donné, moins le nombre de tâches de réduction en cours d'exécution dans ce cluster. Cas d'utilisation : analyser les performances du cluster Unités : nombre |
Statut du nœud | |
CoreNodesRunning |
Nombre de nœuds principaux actifs. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
CoreNodesPending |
Nombre de nœuds principaux en attente d'attribution. Il se peut que tous les nœuds principaux demandés ne soient pas immédiatement accessibles ; cette métrique indique les demandes en attente. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
LiveDataNodes |
Pourcentage de nœuds de données qui reçoivent des tâches de Hadoop. Cas d'utilisation : surveiller l'intégrité du cluster Unités : pourcentage |
TaskNodesRunning |
Nombre de nœuds de tâches actifs. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
TaskNodesPending |
Nombre de nœuds de tâches en attente d'attribution. Il se peut que tous les nœuds de tâches demandés ne soient pas immédiatement accessibles ; cette métrique indique les demandes en attente. Les points de données pour cette métrique sont présentés uniquement s'il existe un groupe d'instances correspondant. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
LiveTaskTrackers |
Pourcentage de dispositifs de suivi des tâches fonctionnels. Cas d'utilisation : surveiller l'intégrité du cluster Unités : pourcentage |
E/S | |
S3 BytesWritten |
Nombre d'octets écrits sur Amazon S3. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
S3 BytesRead |
Nombre d'octets lus à partir d'Amazon S3. Cette statistique regroupe uniquement les MapReduce tâches et ne s'applique pas aux autres charges de travail sur Amazon. EMR Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
HDFSUtilization |
Pourcentage de HDFS stockage actuellement utilisé. Cas d'utilisation : analyser les performances du cluster Unités : pourcentage |
HDFSBytesRead |
Le nombre d'octets lusHDFS. Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
HDFSBytesWritten |
Le nombre d'octets écrits dansHDFS. Cas d'utilisation : analyser les performances du cluster, surveiller la progression du cluster Unités : nombre |
MissingBlocks |
Le nombre de blocs dans lesquels il n'y HDFS a pas de répliques. Il peut s'agir de blocs corrompus. Cas d'utilisation : surveiller l'intégrité du cluster Unités : nombre |
TotalLoad |
Le nombre total actuel de lecteurs et d'écrivains déclarés par tous les membres DataNodes d'un cluster. Cas d'utilisation : diagnostic de la mesure dans laquelle des performances d'I/O élevées peuvent contribuer à des performances d'exécution des tâches médiocres. Les nœuds de travail exécutant le DataNode démon doivent également effectuer des tâches de mappage et de réduction. La persistance de TotalLoad valeurs élevées au fil du temps peut indiquer que des E/S élevées peuvent contribuer à de mauvaises performances. Des pics occasionnels de cette valeur ne sont pas inhabituels et ne sont généralement pas le signe d'un problème. Unités : nombre |
Métriques de capacité de cluster
Les métriques suivantes indiquent les capacités actuelles ou cibles d'un cluster. Ces métriques sont disponibles uniquement lorsque la mise à l'échelle gérée ou l'arrêt automatique sont activés.
Pour les clusters composés de parcs d'instances, les métriques de capacité de cluster sont mesurées en Units
. Pour les clusters composés de groupes d'instances, les métriques de capacité de cluster sont mesurées en Nodes
ou en VCPU
selon le type d'unité utilisé dans la politique de dimensionnement géré. Pour plus d'informations, consultez la section Utilisation du dimensionnement EMR géré dans le guide EMR de gestion Amazon.
Métrique | Description |
---|---|
|
Le nombre total cible de personnes units/nodes/vCPUs dans un cluster, tel que déterminé par le dimensionnement géré. Unités : nombre |
|
Le nombre total actuel de produits units/nodes/vCPUs disponibles dans un cluster en cours d'exécution. Lorsqu'un redimensionnement de cluster est demandé, cette métrique est mise à jour après l'ajout ou la suppression des nouvelles instances du cluster. Unités : nombre |
|
Le nombre cible de CORE units/nodes/vCPUs dans un cluster, tel que déterminé par le dimensionnement géré. Unités : nombre |
|
Le nombre actuel d'COREunits/nodes/vCPUsexécutions dans un cluster. Unités : nombre |
|
Le nombre cible de TASK units/nodes/vCPUs dans un cluster, tel que déterminé par le dimensionnement géré. Unités : nombre |
|
Le nombre actuel d'TASKunits/nodes/vCPUsexécutions dans un cluster. Unités : nombre |
Amazon EMR émet les statistiques suivantes avec une granularité d'une minute lorsque vous activez la résiliation automatique à l'aide d'une politique de résiliation automatique. Certaines métriques ne sont disponibles que pour les EMR versions 6.4.0 et ultérieures d'Amazon. Pour en savoir plus sur l'arrêt automatique, consultez Utilisation d'une politique de résiliation automatique pour le nettoyage des EMR clusters Amazon.
Métrique | Description |
---|---|
TotalNotebookKernels |
Nombre total de noyaux de bloc-notes en cours d'exécution et inactifs sur le cluster. Cette métrique n'est disponible que pour les EMR versions 6.4.0 et ultérieures d'Amazon. |
AutoTerminationIsClusterIdle |
Indique si le cluster est en cours d'utilisation. La valeur 0 indique que le cluster est activement utilisé par l'un des composants suivants :
La valeur 1 indique que le cluster est inactif. Amazon EMR vérifie l'inactivité continue du cluster ( |
Dimensions pour les EMR statistiques Amazon
EMRLes données Amazon peuvent être filtrées à l'aide de l'une des dimensions du tableau suivant.
Dimension | Description |
---|---|
JobFlowId | Le même que l'ID de cluster, qui correspond à l'identifiant unique d'un cluster sous la forme j-XXXXXXXXXXXXX . Trouvez cette valeur en cliquant sur le cluster dans la EMR console Amazon. |