Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Le EMR cluster Amazon se termine avec NO_ _ LEFT et les nœuds principaux SLAVE _BY_ FAILED MASTER
Cela se produit généralement en raison de l'arrêt de la protection de la résiliation et tous les nœuds principaux dépassent la capacité de stockage de disque spécifiée par un seuil d'utilisation maximal dans la classification de configuration yarn-site
, qui correspond au fichier yarn-site.xml
. Par défaut, cette valeur est 90 %. Lorsque l'utilisation du disque d'un nœud principal dépasse le seuil d'utilisation, le service de YARN NodeManager santé signale le nœud commeUNHEALTHY
. Lorsqu'il est dans cet état, Amazon EMR deny répertorie le nœud et ne lui alloue pas de YARN conteneurs. Si le nœud reste défectueux pendant 45 minutes, Amazon EMR marque l'EC2instance Amazon associée à résilier commeFAILED_BY_MASTER
. Lorsque toutes les EC2 instances Amazon associées aux nœuds principaux sont marquées pour être résiliées, le cluster se termine avec le statut NO_SLAVE_LEFT
car aucune ressource n'est disponible pour exécuter les tâches.
Le dépassement de l'utilisation du disque sur un nœud principal peut entraîner une réaction en chaîne. Si un seul nœud dépasse le seuil d'utilisation du disque en raison de celaHDFS, les autres nœuds sont susceptibles de se situer également à proximité du seuil. Le premier nœud dépasse le seuil d'utilisation du disque, c'est pourquoi Amazon EMR Deny le répertorie. Cela augmente la charge d'utilisation du disque pour les nœuds restants, car ils commencent à répliquer entre eux les HDFS données qu'ils ont perdues sur le nœud figurant sur la liste refusée. Chaque nœud devient ensuite UNHEALTHY
de la même manière et le cluster se résilie finalement.
Meilleures pratiques et recommandations
Configuration du matériel de cluster avec un stockage adéquat
Lorsque vous créez un cluster, assurez-vous qu'il y a suffisamment de nœuds principaux et que chacun dispose d'un stockage d'instance et de volumes EBS de stockage adéquats pourHDFS. Pour de plus amples informations, veuillez consulter Calcul de la HDFS capacité requise d'un cluster. Vous pouvez également ajouter manuellement des instances principales à des groupes d'instances existants ou en utilisant la mise à l'échelle automatique. Les nouvelles instances possèdent la même configuration de stockage que d'autres instances dans le groupe d'instances. Pour de plus amples informations, veuillez consulter Utilisez Amazon EMR Cluster Scaling pour vous adapter à l'évolution des charges de travail.
Activer la protection de la résiliation
Activer la protection de la résiliation. Ainsi, si un nœud principal est répertorié comme étant refusé, vous pouvez vous connecter à l'EC2instance Amazon associée SSH pour résoudre les problèmes et récupérer des données. Si vous activez la protection contre la résiliation, sachez qu'Amazon EMR ne remplace pas l'EC2instance Amazon par une nouvelle instance. Pour de plus amples informations, veuillez consulter Utiliser la protection contre la résiliation pour protéger vos EMR clusters Amazon contre les arrêts accidentels.
Créer une alarme pour la MRUnhealthyNodes CloudWatch métrique
Cette métrique indique le nombre de nœuds de rapports d'un état UNHEALTHY
. C'est l'équivalent de la YARN métriquemapred.resourcemanager.NoOfUnhealthyNodes
. Vous pouvez configurer une notification pour cette alarme afin de vous avertir des nœuds qui ne sont pas sains avant que le délai d'attente de 45 minutes soit atteint. Pour de plus amples informations, veuillez consulter Surveiller EMR les métriques d'Amazon avec CloudWatch.
Affiner les paramètres à l'aide de yarn-site
Les paramètres ci-dessous peuvent être ajustés en fonction des exigences de votre application. Par exemple, vous pouvez augmenter le seuil d'utilisation du disque lorsqu'un nœud signale un état UNHEALTHY
en augmentant la valeur de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage
.
Vous pouvez configurer ces valeurs lorsque vous créez un cluster à l'aide de la classification de configuration yarn-site
. Pour plus d'informations, consultez la section Configuration des applications dans le Amazon EMR Release Guide. Vous pouvez également vous connecter aux EC2 instances Amazon associées aux nœuds principaux en utilisantSSH, puis ajouter les valeurs à l'/etc/hadoop/conf.empty/yarn-site.xml
aide d'un éditeur de texte. Après avoir effectué la modification, vous devez redémarrer hadoop-yarn-nodemanager comme indiqué ci-dessous.
Important
Lorsque vous redémarrez le NodeManager service, les YARN conteneurs actifs sont détruits sauf yarn.nodemanager.recovery.enabled
s'ils sont configurés pour true
utiliser la classification de yarn-site
configuration lors de la création du cluster. Vous devez également spécifier le répertoire dans lequel stocker l'état de conteneur à l'aide de la propriété yarn.nodemanager.recovery.dir
.
sudo /sbin/stop hadoop-yarn-nodemanager sudo /sbin/start hadoop-yarn-nodemanager
Pour plus d'informations sur les yarn-site
propriétés actuelles et les valeurs par défaut, consultez les paramètres YARN par défaut
Propriété | Valeur par défaut | Description |
---|---|---|
yarn.nodemanager. disk-health-checker.intervalle en ms |
120000 |
La fréquence (en secondes) à laquelle la vérification de l'état du disque est exécutée. |
yarn.nodemanager. disk-health-checker. min-healthy-disks |
0.25 |
Fraction minimale du nombre de disques qui doivent être sains pour NodeManager lancer de nouveaux conteneurs. Cela correspond à la fois à yarn.nodemanager.local-dirs (par défaut, sur Amazon) et à yarn.nodemanager.log-dirs (par défaut, |
|
90.0 |
Le pourcentage maximal d'utilisation d'espace de disque autorisée après laquelle un disque est marqué comme défectueux. Les valeurs peuvent aller de 0.0 à 100.0. Si la valeur est supérieure ou égale à 100, NodeManager le disque est plein. Cela s'applique à |
|
0 |
L'espace minimal qui doit être disponible sur un disque pour qu'il soit utilisé. Cela s'applique à |