Résolution des problèmes liés aux indicateurs de santé du - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes liés aux indicateurs de santé du

Les métriques de santé du cluster sont ajoutées au tableau de CloudWatch bord AWS ParallelCluster Amazon à partir de AWS ParallelCluster la version 3.6.0. Dans les sections suivantes, vous découvrirez les indicateurs de santé du tableau de bord et les mesures que vous pouvez prendre pour résoudre les problèmes.

Voir le graphique des erreurs de provisionnement des instances

Si vous voyez une valeur différente de zéro dans le Instance Provisioning Errors graphique, cela signifie que l'instance Amazon EC2 de sauvegarde des nœuds slurm n'a pas pu être lancée sur l'API or. CreateFleet RunInstance

Voyant IAMPolicyErrors

  • Que s'est-il passé ?

    Un certain nombre d'instances n'ont pas pu être lancées, en raison d'autorisations insuffisantes accompagnées d'un code d'erreurUnauthorizedOperation.

  • Comment résoudre le problème ?

    Si vous avez configuré un InstanceRoleou personnalisé InstanceProfile, vérifiez vos politiques IAM et vérifiez que vous utilisez les informations d'identification correctes.

    Consultez le clustermgtd fichier pour obtenir des informations détaillées sur les erreurs du nœud statique. Consultez le slurm_resume.log fichier pour obtenir des informations détaillées sur les erreurs de nœud dynamique. Utilisez les informations pour en savoir plus sur les autorisations manquantes qui doivent être ajoutées.

Voyant VcpuLimitErrors

  • Que s'est-il passé ?

    AWS ParallelCluster n'a pas réussi à lancer les instances car la limite de vCPU que vous avez fixée Compte AWS pour un type d'instance Amazon EC2 spécifique que vous avez configuré pour les nœuds de calcul en cluster a été atteint.

  • Comment résoudre le problème ?

    Vérifiez l'VcpuLimitExceedederreur dans le clustermgtd fichier pour les nœuds statiques et dans le slurm_resume.log fichier pour les nœuds dynamiques pour obtenir des informations supplémentaires. Pour résoudre ce problème, vous pouvez demander une augmentation des limites de vos vCPU. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les quotas de service Amazon Elastic Compute Cloud dans le guide de l'utilisateur Amazon Elastic Compute Cloud pour les instances Linux.

Voyant VolumeLimitErrors

  • Que s'est-il passé ?

    Vous avez atteint la limite de volume Amazon EBS sur votre Compte AWS, et AWS ParallelCluster vous ne parvenez pas à lancer des instances avec un code d'erreur InsufficientVolumeCapacity ouVolumeLimitExceeded.

  • Comment résoudre le problème ?

    Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les slurm_resume.log nœuds dynamiques pour obtenir des informations supplémentaires sur les limites de volume. Pour résoudre ce problème, vous pouvez utiliser un autre volume Région AWS, nettoyer les volumes existants ou contacter le AWS Support Center pour soumettre une demande d'augmentation de votre limite de volume Amazon EBS.

Voyant InsufficientCapacityErrors

  • Que s'est-il passé ?

    AWS ParallelCluster ne dispose pas d'une capacité suffisante pour lancer des instances Amazon EC2 sur des nœuds principaux.

  • Comment résoudre le problème ?

    Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les nœuds dynamiques afin d'obtenir des informations détaillées sur les erreurs de capacité insuffisante. slurm_resume.log Pour résoudre le problème, suivez les instructions à l'adresse https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.

OtherInstanceLaunchFailures

  • Que s'est-il passé ?

    L'instance Amazon EC2 de sauvegarde des nœuds de calcul n'a pas pu être lancée avec l'API CreateFleet orRunInstance.

  • Comment résoudre le problème ?

    Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les slurm_resume.log nœuds dynamiques pour obtenir des informations sur les erreurs.

Affichage du graphique des erreurs d'instance non conformes

Voyant InstanceBootstrapTimeoutError

  • Que s'est-il passé ?

    Une instance ne peut pas rejoindre le cluster au sein du resume_timeout (pour les nœuds dynamiques) ou node_replacement_timeout (pour les nœuds statiques). Cela peut se produire si le réseau n'est pas configuré correctement pour les nœuds de calcul, ou si les scripts personnalisés exécutés sur le nœud de calcul mettent trop de temps à se terminer.

  • Comment résoudre le problème ?

    Pour les nœuds dynamiques, vérifiez dans le clustermgtd journal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :

    Node bootstrap error: Resume timeout expires for node

    Pour les nœuds statiques, vérifiez dans le clustermgtd journal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Pour plus de détails, vérifiez que le /var/log/cloud-init-output.log fichier ne contient pas d'erreurs. Vous pouvez récupérer les adresses IP des nœuds de calcul problématiques dans les fichiers slurm_resume journaux clustermgtd et.

Voyant EC2HealthCheckErrors

Voyant ScheduledEventHealthCheckErrors

  • Que s'est-il passé ?

    Une instance a échoué lors d'une vérification de l'état d'un événement planifié par Amazon EC2, et elle ne fonctionne pas correctement.

  • Comment résoudre le problème ?

    Pour plus d'informations sur la manière de résoudre ce problème, consultez la section Événements planifiés pour vos instances.

Voyant NoCorrespondingInstanceErrors

  • Que s'est-il passé ?

    AWS ParallelCluster Impossible de trouver les instances qui soutiennent les nœuds. Les nœuds se sont probablement terminés automatiquement lors des opérations d'amorçage. SlurmQueuesDes erreurs de OnNodeConfiguredscript CustomActions//OnNodeStart| ou de réseau peuvent se produireNoCorrespondingInstanceErrors.

  • Comment résoudre le problème ?

    Pour plus de détails, consultez /var/log/cloud-init-output.log le nœud de calcul.

Voir le graphique des temps d'inactivité de la flotte de calcul

Observer un MaxDynamicNodeIdleTime délai nettement supérieur au seuil de réduction du temps d'inactivité

  • Que s'est-il passé ?

    Votre instance ne s'arrête pas correctement. MaxDynamicNodeIdleTimeindique la durée maximale en secondes pendant laquelle un nœud dynamique, soutenu par une instance Amazon EC2, est inactif. Le seuil de réduction du temps d'inactivité est dérivé du paramètre de configuration ScaledownIdletimedu cluster. Lorsqu'un nœud de calcul est inactif pendant plus de quelques secondes, Scaledown met le nœud hors Slurm tension et AWS ParallelCluster met fin à l'instance de sauvegarde. Dans ce cas, quelque chose empêche la fermeture de l'instance.

  • Comment résoudre le problème ?

    Pour plus d'informations sur ce problème, voir Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques dansRésolution des problèmes de dimensionnement.