Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Résolution des problèmes liés aux indicateurs de santé du
Les métriques de santé du cluster sont ajoutées au tableau de CloudWatch bord AWS ParallelCluster Amazon à partir de AWS ParallelCluster la version 3.6.0. Dans les sections suivantes, vous découvrirez les indicateurs de santé du tableau de bord et les mesures que vous pouvez prendre pour résoudre les problèmes.
Rubriques
Voir le graphique des erreurs de provisionnement des instances
Si vous voyez une valeur différente de zéro dans le Instance Provisioning Errors
graphique, cela signifie que l'instance Amazon EC2 de sauvegarde des nœuds slurm n'a pas pu être lancée sur l'API or. CreateFleet
RunInstance
Voyant IAMPolicyErrors
-
Que s'est-il passé ?
Un certain nombre d'instances n'ont pas pu être lancées, en raison d'autorisations insuffisantes accompagnées d'un code d'erreur
UnauthorizedOperation
. -
Comment résoudre le problème ?
Si vous avez configuré un InstanceRoleou personnalisé InstanceProfile, vérifiez vos politiques IAM et vérifiez que vous utilisez les informations d'identification correctes.
Consultez le
clustermgtd
fichier pour obtenir des informations détaillées sur les erreurs du nœud statique. Consultez leslurm_resume.log
fichier pour obtenir des informations détaillées sur les erreurs de nœud dynamique. Utilisez les informations pour en savoir plus sur les autorisations manquantes qui doivent être ajoutées.
Voyant VcpuLimitErrors
-
Que s'est-il passé ?
AWS ParallelCluster n'a pas réussi à lancer les instances car la limite de vCPU que vous avez fixée Compte AWS pour un type d'instance Amazon EC2 spécifique que vous avez configuré pour les nœuds de calcul en cluster a été atteint.
-
Comment résoudre le problème ?
Vérifiez l'
VcpuLimitExceeded
erreur dans leclustermgtd
fichier pour les nœuds statiques et dans leslurm_resume.log
fichier pour les nœuds dynamiques pour obtenir des informations supplémentaires. Pour résoudre ce problème, vous pouvez demander une augmentation des limites de vos vCPU. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les quotas de service Amazon Elastic Compute Cloud dans le guide de l'utilisateur Amazon Elastic Compute Cloud pour les instances Linux.
Voyant VolumeLimitErrors
-
Que s'est-il passé ?
Vous avez atteint la limite de volume Amazon EBS sur votre Compte AWS, et AWS ParallelCluster vous ne parvenez pas à lancer des instances avec un code d'erreur
InsufficientVolumeCapacity
ouVolumeLimitExceeded
. -
Comment résoudre le problème ?
Vérifiez le
clustermgtd
fichier pour les nœuds statiques et pour lesslurm_resume.log
nœuds dynamiques pour obtenir des informations supplémentaires sur les limites de volume. Pour résoudre ce problème, vous pouvez utiliser un autre volume Région AWS, nettoyer les volumes existants ou contacter le AWS Support Center pour soumettre une demande d'augmentation de votre limite de volume Amazon EBS.
Voyant InsufficientCapacityErrors
-
Que s'est-il passé ?
AWS ParallelCluster ne dispose pas d'une capacité suffisante pour lancer des instances Amazon EC2 sur des nœuds principaux.
-
Comment résoudre le problème ?
Vérifiez le
clustermgtd
fichier pour les nœuds statiques et pour les nœuds dynamiques afin d'obtenir des informations détaillées sur les erreurs de capacité insuffisante.slurm_resume.log
Pour résoudre le problème, suivez les instructions à l'adresse https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.
OtherInstanceLaunchFailures
-
Que s'est-il passé ?
L'instance Amazon EC2 de sauvegarde des nœuds de calcul n'a pas pu être lancée avec l'API
CreateFleet
orRunInstance
. -
Comment résoudre le problème ?
Vérifiez le
clustermgtd
fichier pour les nœuds statiques et pour lesslurm_resume.log
nœuds dynamiques pour obtenir des informations sur les erreurs.
Affichage du graphique des erreurs d'instance non conformes
-
Que s'est-il passé ?
Un certain nombre d'instances de calcul ont été lancées mais ont par la suite été interrompues pour cause de défaillance.
-
Comment résoudre le problème ?
Pour plus d'informations sur le dépannage des nœuds défectueux, consultezRésolution des problèmes de remplacement et de terminaison inattendus de nœuds.
Voyant InstanceBootstrapTimeoutError
-
Que s'est-il passé ?
Une instance ne peut pas rejoindre le cluster au sein du
resume_timeout
(pour les nœuds dynamiques) ounode_replacement_timeout
(pour les nœuds statiques). Cela peut se produire si le réseau n'est pas configuré correctement pour les nœuds de calcul, ou si les scripts personnalisés exécutés sur le nœud de calcul mettent trop de temps à se terminer. -
Comment résoudre le problème ?
Pour les nœuds dynamiques, vérifiez dans le
clustermgtd
journal (/var/log/parallelcluster/clustermgtd
) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :Node bootstrap error: Resume timeout expires for node
Pour les nœuds statiques, vérifiez dans le
clustermgtd
journal (/var/log/parallelcluster/clustermgtd
) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :Node bootstrap error: Replacement timeout expires for node ... in replacement.
Pour plus de détails, vérifiez que le
/var/log/cloud-init-output.log
fichier ne contient pas d'erreurs. Vous pouvez récupérer les adresses IP des nœuds de calcul problématiques dans les fichiersslurm_resume
journauxclustermgtd
et.
Voyant EC2HealthCheckErrors
-
Que s'est-il passé ?
Le bilan de santé d'une instance a échoué sur Amazon EC2.
-
Comment résoudre le problème ?
Pour plus d'informations sur la façon de résoudre ce problème, consultez Résoudre les problèmes des instances dont les vérifications d'état ont échoué.
Voyant ScheduledEventHealthCheckErrors
-
Que s'est-il passé ?
Une instance a échoué lors d'une vérification de l'état d'un événement planifié par Amazon EC2, et elle ne fonctionne pas correctement.
-
Comment résoudre le problème ?
Pour plus d'informations sur la manière de résoudre ce problème, consultez la section Événements planifiés pour vos instances.
Voyant NoCorrespondingInstanceErrors
-
Que s'est-il passé ?
AWS ParallelCluster Impossible de trouver les instances qui soutiennent les nœuds. Les nœuds se sont probablement terminés automatiquement lors des opérations d'amorçage. SlurmQueuesDes erreurs de OnNodeConfiguredscript CustomActions//OnNodeStart| ou de réseau peuvent se produire
NoCorrespondingInstanceErrors
. -
Comment résoudre le problème ?
Pour plus de détails, consultez
/var/log/cloud-init-output.log
le nœud de calcul.
Voir le graphique des temps d'inactivité de la flotte de calcul
Observer un MaxDynamicNodeIdleTime
délai nettement supérieur au seuil de réduction du temps d'inactivité
-
Que s'est-il passé ?
Votre instance ne s'arrête pas correctement.
MaxDynamicNodeIdleTime
indique la durée maximale en secondes pendant laquelle un nœud dynamique, soutenu par une instance Amazon EC2, est inactif. Le seuil de réduction du temps d'inactivité est dérivé du paramètre de configuration ScaledownIdletimedu cluster. Lorsqu'un nœud de calcul est inactif pendant plus de quelques secondes, Scaledown met le nœud hors Slurm tension et AWS ParallelCluster met fin à l'instance de sauvegarde. Dans ce cas, quelque chose empêche la fermeture de l'instance. -
Comment résoudre le problème ?
Pour plus d'informations sur ce problème, voir Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques dansRésolution des problèmes de dimensionnement.