Le EMR cluster Amazon se termine avec NO_ _ LEFT et les nœuds principaux SLAVE _BY_ FAILED MASTER

Cela se produit généralement en raison de l'arrêt de la protection de la résiliation et tous les nœuds principaux dépassent la capacité de stockage de disque spécifiée par un seuil d'utilisation maximal dans la classification de configuration yarn-site, qui correspond au fichier yarn-site.xml. Par défaut, cette valeur est 90 %. Lorsque l'utilisation du disque d'un nœud principal dépasse le seuil d'utilisation, le service de YARN NodeManager santé signale le nœud commeUNHEALTHY. Lorsqu'il est dans cet état, Amazon EMR deny répertorie le nœud et ne lui alloue pas de YARN conteneurs. Si le nœud reste défectueux pendant 45 minutes, Amazon EMR marque l'EC2instance Amazon associée à résilier commeFAILED_BY_MASTER. Lorsque toutes les EC2 instances Amazon associées aux nœuds principaux sont marquées pour être résiliées, le cluster se termine avec le statut NO_SLAVE_LEFT car aucune ressource n'est disponible pour exécuter les tâches.

Le dépassement de l'utilisation du disque sur un nœud principal peut entraîner une réaction en chaîne. Si un seul nœud dépasse le seuil d'utilisation du disque en raison de celaHDFS, les autres nœuds sont susceptibles de se situer également à proximité du seuil. Le premier nœud dépasse le seuil d'utilisation du disque, c'est pourquoi Amazon EMR Deny le répertorie. Cela augmente la charge d'utilisation du disque pour les nœuds restants, car ils commencent à répliquer entre eux les HDFS données qu'ils ont perdues sur le nœud figurant sur la liste refusée. Chaque nœud devient ensuite UNHEALTHY de la même manière et le cluster se résilie finalement.

Meilleures pratiques et recommandations

Configuration du matériel de cluster avec un stockage adéquat

Lorsque vous créez un cluster, assurez-vous qu'il y a suffisamment de nœuds principaux et que chacun dispose d'un stockage d'instance et de volumes EBS de stockage adéquats pourHDFS. Pour de plus amples informations, veuillez consulter Calcul de la HDFS capacité requise d'un cluster. Vous pouvez également ajouter manuellement des instances principales à des groupes d'instances existants ou en utilisant la mise à l'échelle automatique. Les nouvelles instances possèdent la même configuration de stockage que d'autres instances dans le groupe d'instances. Pour de plus amples informations, veuillez consulter Utilisez Amazon EMR Cluster Scaling pour vous adapter à l'évolution des charges de travail.

Activer la protection de la résiliation

Activer la protection de la résiliation. Ainsi, si un nœud principal est répertorié comme étant refusé, vous pouvez vous connecter à l'EC2instance Amazon associée SSH pour résoudre les problèmes et récupérer des données. Si vous activez la protection contre la résiliation, sachez qu'Amazon EMR ne remplace pas l'EC2instance Amazon par une nouvelle instance. Pour de plus amples informations, veuillez consulter Utiliser la protection contre la résiliation pour protéger vos EMR clusters Amazon contre les arrêts accidentels.

Création d'une alarme pour la MRUnhealthyNodes CloudWatch métrique

Cette métrique indique le nombre de nœuds de rapports d'un état UNHEALTHY. C'est l'équivalent de la YARN métriquemapred.resourcemanager.NoOfUnhealthyNodes. Vous pouvez configurer une notification pour cette alarme afin de vous avertir des nœuds qui ne sont pas sains avant que le délai d'attente de 45 minutes soit atteint. Pour de plus amples informations, veuillez consulter Surveiller EMR les métriques d'Amazon avec CloudWatch.

Affiner les paramètres à l'aide de yarn-site

Les paramètres ci-dessous peuvent être ajustés en fonction des exigences de votre application. Par exemple, vous pouvez augmenter le seuil d'utilisation du disque lorsqu'un nœud signale un état UNHEALTHY en augmentant la valeur de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage.

Vous pouvez configurer ces valeurs lorsque vous créez un cluster à l'aide de la classification de configuration yarn-site. Pour plus d'informations, consultez la section Configuration des applications dans le Amazon EMR Release Guide. Vous pouvez également vous connecter aux EC2 instances Amazon associées aux nœuds principaux en utilisantSSH, puis ajouter les valeurs à l'/etc/hadoop/conf.empty/yarn-site.xmlaide d'un éditeur de texte. Après avoir effectué la modification, vous devez redémarrer hadoop-yarn-nodemanager comme indiqué ci-dessous.

Important

Lorsque vous redémarrez le NodeManager service, les YARN conteneurs actifs sont détruits sauf yarn.nodemanager.recovery.enabled s'ils sont configurés pour true utiliser la classification de yarn-site configuration lors de la création du cluster. Vous devez également spécifier le répertoire dans lequel stocker l'état de conteneur à l'aide de la propriété yarn.nodemanager.recovery.dir.


sudo /sbin/stop hadoop-yarn-nodemanager
sudo /sbin/start hadoop-yarn-nodemanager

Pour plus d'informations sur les yarn-site propriétés actuelles et les valeurs par défaut, consultez les paramètres YARN par défaut dans la documentation d'Apache Hadoop.

Propriété	Valeur par défaut	Description
yarn.nodemanager. disk-health-checker.intervalle de millisecondes	120000	La fréquence (en secondes) à laquelle la vérification de l'état du disque est exécutée.
yarn.nodemanager. disk-health-checker. min-healthy-disks	0.25	Fraction minimale du nombre de disques qui doivent être sains pour NodeManager lancer de nouveaux conteneurs. Cela correspond à la fois à yarn.nodemanager.local-dirs (par défaut, sur Amazon) et à yarn.nodemanager.log-dirs (par défaut, `/mnt/yarn` qui est lié symboliquement à EMR Amazon). `/var/log/hadoop-yarn/containers` `mnt/var/log/hadoop-yarn/containers` EMR
`yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage`	90.0	Le pourcentage maximal d'utilisation d'espace de disque autorisée après laquelle un disque est marqué comme défectueux. Les valeurs peuvent aller de 0.0 à 100.0. Si la valeur est supérieure ou égale à 100, NodeManager le disque est plein. Cela s'applique à `yarn-nodemanager.local-dirs` et `yarn.nodemanager.log-dirs`.
`yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb`	0	L'espace minimal qui doit être disponible sur un disque pour qu'il soit utilisé. Cela s'applique à `yarn-nodemanager.local-dirs` et `yarn.nodemanager.log-dirs`.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Erreurs liées aux ressources lors des opérations EMR du cluster Amazon

Erreur EMR du cluster Amazon : impossible de répliquer le bloc, mais uniquement sur zéro nœud.