Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS ParallelCluster résolution des problèmes
La AWS ParallelCluster communauté gère une page Wiki qui fournit de nombreux conseils de résolution des problèmes sur le AWS ParallelCluster GitHub Wiki
Rubriques
- Récupération et conservation des journaux
- Résolution des problèmes de déploiement des piles
- Résolution des problèmes dans plusieurs clusters en mode file d'attente
- Résolution des problèmes dans les clusters en mode file d'attente unique
- Problèmes liés aux groupes de placement et au lancement d'instances
- Répertoires qui ne peuvent pas être remplacés
- Résolution des problèmes sur Amazon DCV
- Résolution des problèmes dans les clusters avec AWS Batch intégration
- Résolution des problèmes en cas d'échec de création d'une ressource
- Résolution des problèmes liés à la taille des IAM politiques
- Support supplémentaire
Récupération et conservation des journaux
Les journaux constituent une ressource utile pour résoudre les problèmes. Avant de pouvoir utiliser les journaux pour résoudre les problèmes liés à vos AWS ParallelCluster ressources, vous devez d'abord créer une archive des journaux du cluster. Suivez les étapes décrites dans la rubrique Création d'une archive des journaux d'un cluster
Si l'un de vos clusters en cours d'exécution rencontre des problèmes, vous devez le placer dans un STOPPED
état en exécutant la pcluster stop
<
commande avant de commencer le dépannage. Cela évite d'encourir des coûts imprévus.cluster_name
>
S'il pcluster
cesse de fonctionner ou si vous souhaitez supprimer un cluster tout en préservant ses journaux, exécutez la pcluster delete —keep-logs
<
commande. L'exécution de cette commande supprime le cluster tout en conservant le groupe de journaux stocké sur Amazon CloudWatch. Pour plus d'informations sur cette commande, consultez la pcluster delete documentation.cluster_name
>
Résolution des problèmes de déploiement des piles
Si votre cluster ne parvient pas à être créé et annule la création de la pile, vous pouvez consulter les fichiers journaux suivants pour diagnostiquer le problème. Vous souhaitez rechercher le résultat de ROLLBACK_IN_PROGRESS
dans ces journaux. Le message d'échec doit se présenter comme suit :
$
pcluster create mycluster
Creating stack named: parallelcluster-mycluster Status: parallelcluster-mycluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::EC2::Instance MasterServer Received FAILURE signal with UniqueId i-07af1cb218dd6a081
Pour diagnostiquer le problème, créez à nouveau le cluster en utilisantpcluster create, y compris le --norollback
drapeau. Ensuite, SSH dans le cluster :
$
pcluster create mycluster --norollback
...$
pcluster ssh mycluster
Une fois connecté au nœud principal, vous devriez trouver trois fichiers journaux principaux que vous pouvez utiliser pour identifier l'erreur.
-
/var/log/cfn-init.log
est le journal ducfn-init
script. Vérifiez d'abord ce journal. Il est probable que vous voyiez une erreur commeCommand chef failed
dans ce journal. Regardez les lignes juste avant cette ligne pour plus de détails liés au message d'erreur. Pour plus d'informations, consultez cfn-init. -
/var/log/cloud-init.log
est le journal de cloud-init. Si rien ne s'y trouve cfn-init.log
, essayez ensuite de consulter ce journal. -
/var/log/cloud-init-output.log
est le résultat des commandes exécutées par cloud-init. Cela inclut la sortie de cfn-init
. Dans la plupart des cas, il n'est pas nécessaire de consulter ce journal pour résoudre ce type de problème.
Résolution des problèmes dans plusieurs clusters en mode file d'attente
Cette section concerne les clusters installés à l'aide de AWS ParallelCluster la version 2.9.0 ou ultérieure avec Slurm planificateur de tâches. Pour plus d'informations sur le mode de file d'attente multiple, consultezMode de file d'attente multiple.
Rubriques
Journaux clés
Le tableau suivant fournit une vue d'ensemble des journaux clés du nœud principal :
/var/log/cfn-init.log
-
Il s'agit du journal AWS CloudFormation d'initialisation. Il contient toutes les commandes qui ont été exécutées lors de la configuration d'une instance. C'est utile pour résoudre les problèmes d'initialisation.
/var/log/chef-client.log
-
Il s'agit du journal du client Chef. Il contient toutes les commandes exécutées via Chef/CINC. C'est utile pour résoudre les problèmes d'initialisation.
/var/log/parallelcluster/slurm_resume.log
-
C'est un
ResumeProgram
journal. Il lance des instances pour les nœuds dynamiques et est utile pour résoudre les problèmes de lancement des nœuds dynamiques. /var/log/parallelcluster/slurm_suspend.log
-
Voici le
SuspendProgram
journal. Il est appelé lorsque des instances sont résiliées pour des nœuds dynamiques et est utile pour résoudre les problèmes de terminaison des nœuds dynamiques. Lorsque vous consultez ce journal, vous devez également leclustermgtd
consulter. /var/log/parallelcluster/clustermgtd
-
Voici le
clustermgtd
journal. Il s'exécute en tant que démon centralisé qui gère la plupart des actions des opérations de cluster. C'est utile pour résoudre tout problème de lancement, de terminaison ou de fonctionnement du cluster. /var/log/slurmctld.log
-
C'est le Slurm journal du démon de contrôle. AWS ParallelCluster ne prend pas de décisions de mise à l'échelle. Au contraire, il tente uniquement de lancer des ressources pour satisfaire aux Slurm exigences. Il est utile pour les problèmes de dimensionnement et d'allocation, les problèmes liés au travail et les problèmes de lancement et de résiliation liés au planificateur.
Voici les remarques clés concernant les nœuds de calcul :
/var/log/cloud-init-output.log
-
Il s'agit du journal cloud-init
. Il contient toutes les commandes qui ont été exécutées lors de la configuration d'une instance. C'est utile pour résoudre les problèmes d'initialisation. /var/log/parallelcluster/computemgtd
-
Voici le
computemgtd
journal. Il s'exécute sur chaque nœud de calcul pour surveiller le nœud dans les rares cas où leclustermgtd
démon du nœud principal est hors ligne. C'est utile pour résoudre les problèmes de résiliation inattendus. /var/log/slurmd.log
-
C'est le Slurm journal des démons de calcul. C'est utile pour résoudre les problèmes liés à l'initialisation et aux pannes de calcul.
Résolution des problèmes d'initialisation des nœuds
Cette section explique comment résoudre les problèmes d'initialisation des nœuds. Cela inclut les problèmes où le nœud ne parvient pas à démarrer, à démarrer ou à rejoindre un cluster.
Nœud principal :
Journaux applicables :
-
/var/log/cfn-init.log
-
/var/log/chef-client.log
-
/var/log/parallelcluster/clustermgtd
-
/var/log/parallelcluster/slurm_resume.log
-
/var/log/slurmctld.log
Vérifiez les /var/log/chef-client.log
journaux /var/log/cfn-init.log
et. Ces journaux doivent contenir toutes les actions exécutées lors de la configuration du nœud principal. La plupart des erreurs survenant au cours de l'installation doivent contenir un message d'erreur dans le /var/log/chef-client.log
journal. Si des scripts de pré-installation ou de post-installation sont spécifiés dans la configuration du cluster, vérifiez que le script s'exécute correctement via les messages du journal.
Lorsqu'un cluster est créé, le nœud principal doit attendre que les nœuds de calcul rejoignent le cluster avant de pouvoir le rejoindre. Ainsi, si les nœuds de calcul ne parviennent pas à rejoindre le cluster, le nœud principal échoue également. Vous pouvez suivre l'un de ces ensembles de procédures, en fonction du type de notes de calcul que vous utilisez, pour résoudre ce type de problème :
Nœuds de calcul dynamiques :
-
Recherchez dans le
ResumeProgram
journal (/var/log/parallelcluster/slurm_resume.log
) le nom de votre nœud de calcul pour voir s'ilResumeProgram
a déjà été appelé avec le nœud. (Si vousResumeProgram
n'avez jamais été appelé, vous pouvez consulter leslurmctld
log (/var/log/slurmctld.log
) pour déterminer si Slurm J'ai déjà essayé d'appelerResumeProgram
avec le nœud.) -
Notez que des autorisations incorrectes pour
ResumeProgram
peuventResumeProgram
entraîner un échec silencieux. Si vous utilisez une option personnalisée AMI avec modification lors de laResumeProgram
configuration, vérifiez qu'elleResumeProgram
appartient à l'slurm
utilisateur et qu'elle dispose de l'autorisation744
(rwxr--r--
). -
En cas
ResumeProgram
d'appel, vérifiez si une instance est lancée pour le nœud. Si aucune instance n'a été lancée, un message d'erreur décrivant l'échec du lancement devrait s'afficher. -
Si l'instance est lancée, il se peut qu'un problème se soit produit pendant le processus de configuration. Vous devriez voir l'adresse IP privée et l'ID d'instance correspondants dans le
ResumeProgram
journal. De plus, vous pouvez consulter les journaux de configuration correspondants pour l'instance en question. Pour plus d'informations sur le dépannage d'une erreur de configuration avec un nœud de calcul, consultez la section suivante.
Nœuds de calcul statiques :
-
Consultez le journal
clustermgtd
(/var/log/parallelcluster/clustermgtd
) pour voir si des instances ont été lancées pour le nœud. S'ils n'ont pas été lancés, un message d'erreur clair devrait s'afficher détaillant l'échec du lancement. -
Si l'instance est lancée, il y a un problème pendant le processus de configuration. Vous devriez voir l'adresse IP privée et l'ID d'instance correspondants dans le
ResumeProgram
journal. De plus, vous pouvez consulter les journaux de configuration correspondants pour l'instance en question.
-
Nœuds de calcul :
-
Journaux applicables :
-
/var/log/cloud-init-output.log
-
/var/log/slurmd.log
-
-
Si le nœud de calcul est lancé
/var/log/cloud-init-output.log
, vérifiez d'abord, qui doit contenir les journaux de configuration similaires à ceux du nœud principal./var/log/chef-client.log
La plupart des erreurs survenant lors de l'installation doivent contenir des messages d'erreur dans le/var/log/cloud-init-output.log
journal. Si des scripts de pré-installation ou de post-installation sont spécifiés dans la configuration du cluster, vérifiez qu'ils ont été exécutés correctement. -
Si vous utilisez une option personnalisée AMI modifiée pour Slurm configuration, alors il pourrait y avoir un Slurm erreur associée qui empêche le nœud de calcul de rejoindre le cluster. Pour les erreurs liées au planificateur, consultez le
/var/log/slurmd.log
journal.
-
Résolution des problèmes de remplacement et de terminaison inattendus de nœuds
Cette section continue à explorer comment résoudre les problèmes liés aux nœuds, en particulier lorsqu'un nœud est remplacé ou arrêté de manière inattendue.
-
Journaux applicables :
-
/var/log/parallelcluster/clustermgtd
(nœud principal) -
/var/log/slurmctld.log
(nœud principal) -
/var/log/parallelcluster/computemgtd
(nœud de calcul)
-
-
Nœuds remplacés ou interrompus de façon inattendue
-
Consultez le
clustermgtd
journal (/var/log/parallelcluster/clustermgtd
) pour voir si l'action de remplacement ou de résiliation d'un nœudclustermgtd
a été entreprise. Notez que celaclustermgtd
gère toutes les actions de maintenance normales du nœud. -
En cas de
clustermgtd
remplacement ou de résiliation du nœud, un message doit s'afficher expliquant pourquoi cette action a été entreprise sur le nœud. Si la raison est liée au planificateur (par exemple, parce que le nœud est dedansDOWN
), consultez leslurmctld
journal pour plus d'informations. Si la raison est EC2 liée à Amazon, il doit y avoir un message informatif détaillant le problème EC2 lié à Amazon qui a nécessité le remplacement. -
Si cela
clustermgtd
n'a pas mis fin au nœud, vérifiez d'abord s'il s'agit d'une résiliation prévue par AmazonEC2, plus précisément d'une résiliation ponctuelle.computemgtd
, exécuté sur un nœud de calcul, peut également prendre des mesures pour mettre fin à un nœud s'ilclustermgtd
est déterminé qu'il ne fonctionne pas correctement. Vérifiezcomputemgtd
log (/var/log/parallelcluster/computemgtd
) pour voir si lecomputemgtd
nœud a été arrêté.
-
-
Les nœuds ont échoué
-
Consultez
slurmctld
log (/var/log/slurmctld.log
) pour savoir pourquoi une tâche ou un nœud a échoué. Notez que les tâches sont automatiquement mises en file d'attente en cas de défaillance d'un nœud. -
Si vous
slurm_resume
signalez que le nœud est lancé et que vousclustermgtd
signalez au bout de quelques minutes qu'il n'existe aucune instance correspondante dans Amazon EC2 pour ce nœud, le nœud risque de tomber en panne lors de la configuration. Pour récupérer le journal à partir d'un compute (/var/log/cloud-init-output.log
), procédez comme suit :-
Soumettre une offre d'emploi à louer Slurm créez un nouveau nœud.
-
Après le démarrage du nœud, activez la protection de terminaison à l'aide de cette commande.
aws ec2 modify-instance-attribute --instance-id i-xyz --disable-api-termination
-
Récupérez la sortie de console depuis le nœud à l'aide de cette commande.
aws ec2 get-console-output --instance-id i-xyz --output text
-
-
Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques
-
Journaux applicables :
-
/var/log/parallelcluster/clustermgtd
(nœud principal) -
/var/log/parallelcluster/slurm_suspend.log
(nœud principal)
-
-
Dans la plupart des cas,
clustermgtd
gère toutes les actions de fermeture d'instance attendues. Consultez leclustermgtd
journal pour savoir pourquoi il n'a pas réussi à remplacer ou à mettre fin à un nœud. -
En cas d'échec d'un nœud dynamiquescaledown_idletime, consultez le
SuspendProgram
journal pour voir s'SuspendProgram
il a été appeléslurmctld
avec le nœud spécifique comme argument. Notez qu'SuspendProgram
aucune action n'est réellement exécutée. Au contraire, il ne se connecte que lorsqu'il est appelé. La résiliation et laNodeAddr
réinitialisation de toutes les instances sont effectuées parclustermgtd
. Slurm remetSuspendTimeout
automatiquement les nœuds dans unPOWER_SAVING
état ultérieur.
Résolution d'autres problèmes connus liés aux nœuds et aux tâches
Un autre type de problème connu est celui qui AWS ParallelCluster peut ne pas permettre d'allouer des tâches ou de prendre des décisions de dimensionnement. Dans ce type de problème, AWS ParallelCluster seuls le lancement, la résiliation ou la maintenance des ressources conformément à Slurm instructions. Pour ces problèmes, consultez le slurmctld
journal pour les résoudre.
Résolution des problèmes dans les clusters en mode file d'attente unique
Note
À partir de la version 2.11.5, AWS ParallelCluster ne prend pas en charge l'utilisation de SGE or Torque planificateurs.
Cette section s'applique aux clusters qui ne disposent pas du mode de file d'attente multiple avec l'une des deux configurations suivantes :
-
Lancé à l'aide d'une AWS ParallelCluster version antérieure à 2.9.0 et SGE, Torque, ou Slurm planificateurs de tâches.
-
Lancé avec AWS ParallelCluster la version 2.9.0 ou ultérieure et SGE or Torque planificateurs de tâches.
Rubriques
Journaux clés
Les fichiers journaux suivants sont les journaux clés du nœud principal.
Pour AWS ParallelCluster la version 2.9.0 ou ultérieure :
/var/log/chef-client.log
-
Il s'agit du journal du client CINC (chef). Il contient toutes les commandes qui ont été exécutéesCINC. C'est utile pour résoudre les problèmes d'initialisation.
Pour toutes les AWS ParallelCluster versions :
/var/log/cfn-init.log
-
Voici le
cfn-init
journal. Il contient toutes les commandes qui ont été exécutées lors de la configuration d'une instance et est donc utile pour résoudre les problèmes d'initialisation. Pour plus d'informations, consultez cfn-init. /var/log/clustermgtd.log
-
Il s'agit du
clustermgtd
journal de Slurm planificateurs.clustermgtd
fonctionne en tant que démon centralisé qui gère la plupart des actions des opérations de cluster. C'est utile pour résoudre tout problème de lancement, de terminaison ou de fonctionnement du cluster. /var/log/jobwatcher
-
Il s'agit du
jobwatcher
journal de SGE and Torque planificateurs.jobwatcher
surveille la file d'attente du planificateur et met à jour le groupe Auto Scaling. C'est utile pour résoudre les problèmes liés à la mise à l'échelle des nœuds. /var/log/sqswatcher
-
Il s'agit du
sqswatcher
journal de SGE and Torque planificateurs.sqswatcher
traite l'événement Instance Ready envoyé par une instance de calcul après une initialisation réussie. Il ajoute également des nœuds de calcul à la configuration du planificateur. Ce journal est utile pour résoudre les problèmes liés à l'échec d'un ou de plusieurs nœuds à rejoindre un cluster.
Les journaux clés des nœuds de calcul sont les suivants.
AWS ParallelCluster version 2.9.0 ou ultérieure
/var/log/cloud-init-output.log
-
Il s'agit du journal d'initialisation du Cloud. Il contient toutes les commandes qui ont été exécutées lors de la configuration d'une instance. C'est utile pour résoudre les problèmes d'initialisation.
AWS ParallelCluster versions antérieures à 2.9.0
/var/log/cfn-init.log
-
Il s'agit du journal CloudFormation d'initialisation. Il contient toutes les commandes qui ont été exécutées lors de la configuration d'une instance. C'est utile pour résoudre les problèmes d'initialisation
Toutes les versions
/var/log/nodewatcher
-
Voici le
nodewatcher
journal.nodewatcher
démons qui s'exécutent sur chaque nœud de calcul lors de l'utilisation SGE and Torque planificateurs. Ils réduisent la taille d'un nœud s'il est inactif. Ce journal est utile pour tout problème lié à la réduction des ressources.
Résolution des problèmes d'échec des opérations de lancement et de jointure
-
Journaux applicables :
-
/var/log/cfn-init-cmd.log
(nœud principal et nœud de calcul) -
/var/log/sqswatcher
(nœud principal)
-
-
Si les nœuds n'ont pas pu être lancés, consultez le
/var/log/cfn-init-cmd.log
journal pour voir le message d'erreur spécifique. Dans la plupart des cas, les échecs de lancement des nœuds sont dus à un échec de configuration. -
Si les nœuds de calcul n'ont pas réussi à rejoindre la configuration du planificateur malgré une configuration réussie, consultez le
/var/log/sqswatcher
journal pour voir si l'événement asqswatcher
été traité. Dans la plupart des cas, ces problèmes sont dus au fait que l'événementsqswatcher
n'a pas été traité.
Résolution des problèmes de dimensionnement
-
Journaux applicables :
-
/var/log/jobwatcher
(nœud principal) -
/var/log/nodewatcher
(nœud de calcul)
-
-
Problèmes de mise à l'échelle : pour le nœud principal, consultez le
/var/log/jobwatcher
journal pour voir si lejobwatcher
daemon a calculé le nombre approprié de nœuds requis et a mis à jour le groupe Auto Scaling. Notez qu'iljobwatcher
surveille la file d'attente du planificateur et met à jour le groupe Auto Scaling. -
Problèmes de réduction : pour les nœuds de calcul, consultez le
/var/log/nodewatcher
journal du nœud problématique pour savoir pourquoi le nœud a été réduit. Notez que lesnodewatcher
démons réduisent la taille d'un nœud de calcul s'il est inactif.
Résolution d'autres problèmes liés au cluster
L'un des problèmes connus est l'échec des notes de calcul aléatoires sur les clusters à grande échelle, en particulier ceux comportant 500 nœuds de calcul ou plus. Ce problème est lié à une limitation de l'architecture de dimensionnement d'un cluster de files d'attente unique. Si vous souhaitez utiliser un cluster à grande échelle, si vous utilisez AWS ParallelCluster la version v2.9.0 ou ultérieure, utilisez Slurm, et pour éviter ce problème, vous devez effectuer une mise à niveau et passer à un cluster compatible avec le mode de files d'attente multiples. Vous pouvez le faire en courantpcluster-config convert.
Pour les clusters à très grande échelle, un réglage supplémentaire de votre système peut être nécessaire. Pour plus d'informations, contactez Support.
Problèmes liés aux groupes de placement et au lancement d'instances
Pour obtenir le plus faible temps de latence entre nœuds, utilisez un groupe de placement. Un groupe de placement garantit que vos instances sont situées sur la même structure de mise en réseau. S'il n'y a pas suffisamment d'instances disponibles lorsqu'une demande est faite, une InsufficientInstanceCapacity
erreur est renvoyée. Pour réduire le risque de recevoir cette erreur lors de l'utilisation de groupes de placement de clusters, définissez le placement_group paramètre sur DYNAMIC
et définissez le placement paramètre surcompute
.
Si vous avez besoin d'un système de fichiers partagé performant, pensez à l'utiliser FSxpour Lustre
Si le nœud principal doit se trouver dans le groupe de placement, utilisez le même type d'instance et le même sous-réseau pour le nœud principal et pour tous les nœuds de calcul. Ce faisant, le compute_instance_type paramètre a la même valeur que le master_instance_type paramètre, le placement paramètre est défini sur et le compute_subnet_id paramètre n'est pas spécifié. cluster
Avec cette configuration, la valeur du master_subnet_id paramètre est utilisée pour les nœuds de calcul.
Pour plus d'informations, consultez les sections Résolution des problèmes liés au lancement des instances et Groupes de placement, rôles et limites dans le Guide de EC2 l'utilisateur Amazon
Répertoires qui ne peuvent pas être remplacés
Les répertoires suivants sont partagés entre les nœuds et ne peuvent pas être remplacés.
/home
-
Cela inclut le dossier personnel par défaut de l'utilisateur (
/home/ec2_user
sur Amazon Linux,/home/centos
sur CentOS, et ainsi de/home/ubuntu
suite Ubuntu). /opt/intel
-
Cela inclut IntelMPI, Intel Parallel Studio et les fichiers connexes.
/opt/sge
-
Note
À partir de la version 2.11.5, AWS ParallelCluster ne prend pas en charge l'utilisation de SGE or Torque planificateurs.
Cela inclut Son of Grid Engine et les fichiers associés. (Conditionnel, seulement si scheduler
= sge
.) /opt/slurm
-
Cela inclut Slurm Workload Manager et les fichiers associés. (Conditionnel, seulement si scheduler
= slurm
.) /opt/torque
-
Note
À partir de la version 2.11.5, AWS ParallelCluster ne prend pas en charge l'utilisation de SGE or Torque planificateurs.
Cela inclut Torque Resource Manager et les fichiers associés. (Conditionnel, seulement si scheduler
= torque
.)
Résolution des problèmes sur Amazon DCV
Logs pour Amazon DCV
Les journaux d'Amazon DCV sont écrits dans des fichiers du /var/log/dcv/
répertoire. L'examen de ces journaux peut aider à résoudre les problèmes.
Mémoire de type d'DCVinstance Amazon
Le type d'instance doit avoir au moins 1,7 Gibioctet (GiB) pour RAM exécuter Amazon. DCV Nano and micro les types d'instance ne disposent pas de suffisamment de mémoire pour exécuter AmazonDCV.
DCVProblèmes liés à Ubuntu Amazon
Lorsque vous exécutez Gnome Terminal sur une DCV session sur Ubuntu, il se peut que vous n'ayez pas automatiquement accès à l'environnement utilisateur mis à AWS ParallelCluster disposition via le shell de connexion. L'environnement utilisateur fournit des modules d'environnement tels que openmpi ou intelmpi, ainsi que d'autres paramètres utilisateur.
Les paramètres par défaut de Gnome Terminal empêchent le shell de démarrer en tant que shell de connexion. Cela signifie que les profils shell ne sont pas générés automatiquement et que l'environnement AWS ParallelCluster utilisateur n'est pas chargé.
Pour obtenir correctement le profil shell et accéder à l'environnement AWS ParallelCluster utilisateur, effectuez l'une des opérations suivantes :
-
Modifiez les paramètres par défaut du terminal :
-
Choisissez le menu Edition dans le terminal Gnome.
-
Sélectionnez Préférences, puis Profils.
-
Choisissez Command, puis sélectionnez Exécuter la commande en tant que shell de connexion.
-
Ouvrez un nouveau terminal.
-
-
Utilisez la ligne de commande pour rechercher les profils disponibles :
$
source /etc/profile && source $HOME/.bashrc
Résolution des problèmes dans les clusters avec AWS Batch intégration
Cette section concerne les clusters avec intégration d'un AWS Batch planificateur.
Problèmes liés au nœud principal
Les problèmes de configuration liés au nœud principal peuvent être résolus de la même manière qu'un cluster de files d'attente unique. Pour de plus amples informations sur ces problèmes, veuillez consulter Résolution des problèmes dans les clusters en mode file d'attente unique.
AWS Batch problèmes de soumission de tâches parallèles sur plusieurs nœuds
Si vous rencontrez des problèmes pour soumettre des tâches parallèles sur plusieurs nœuds lorsque vous les utilisez AWS Batch comme planificateur de tâches, vous devez passer à AWS ParallelCluster la version 2.5.0. Si cela n'est pas faisable, vous pouvez utiliser la solution décrite dans la rubrique : Appliquer un correctif automatique à un cluster utilisé pour soumettre des tâches parallèles sur plusieurs nœuds via
Problèmes de calcul
AWS Batch gère les aspects de dimensionnement et de calcul de vos services. Si vous rencontrez des problèmes liés au calcul, consultez la documentation de AWS Batch dépannage pour obtenir de l'aide.
Échecs au travail
Si une tâche échoue, vous pouvez exécuter la awsbout
commande pour récupérer le résultat de la tâche. Vous pouvez également exécuter la awsbstat -d
commande pour obtenir un lien vers les journaux des tâches stockés par Amazon CloudWatch.
Résolution des problèmes en cas d'échec de création d'une ressource
Cette section concerne les ressources du cluster lorsque leur création échoue.
Lorsqu'une ressource ne parvient pas à être créée, ParallelCluster renvoie un message d'erreur comme celui-ci.
pcluster create -c config
my-cluster
Beginning cluster creation for cluster: my-cluster WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). Info: There is a newer version 3.0.3 of AWS ParallelCluster available. Creating stack named: parallelcluster-my-cluster Status: parallelcluster-my-cluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::CloudFormation::Stack MasterServerSubstack Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer]. - AWS::CloudFormation::Stack parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL The following resource(s) failed to create: [MasterServer]. - AWS::EC2::Instance MasterServer You have requested more vCPU capacity than your current vCPU limit of 0 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit. (Service: AmazonEC2; Status Code: 400; Error Code: VcpuLimitExceeded; Request ID: a9876543-b321-c765-d432-dcba98766789; Proxy: null) }
Par exemple, si vous voyez le message d'état affiché dans la réponse de commande précédente, vous devez utiliser des types d'instance qui ne dépasseront pas votre CPU limite de v actuelle ou ne demanderont pas de CPU capacité v supplémentaire.
Vous pouvez également utiliser la CloudFormation console pour consulter les informations relatives à l'"Cluster creation failed"
état.
Afficher les messages CloudFormation d'erreur depuis la console.
-
Connectez-vous au AWS Management Console et naviguez vers https://console.aws.amazon.com/cloudformation.
-
Sélectionnez la pile nommée parallelcluster-
cluster_name
. -
Choisissez l'onglet Événements.
-
Vérifiez l'état de la ressource dont la création a échoué en faisant défiler la liste des événements de ressource par ID logique. Si la création d'une sous-tâche a échoué, revenez en arrière pour trouver l'événement de ressource ayant échoué.
-
Exemple de message d' AWS CloudFormation erreur :
2022-02-07 11:59:14 UTC-0800 MasterServerSubstack CREATE_FAILED Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer].
Résolution des problèmes liés à la taille des IAM politiques
Référez-vous aux IAM AWS STS quotas, aux exigences relatives aux noms et aux limites de caractères pour vérifier les quotas sur les politiques gérées associées aux rôles. Si la taille d'une politique gérée dépasse le quota, divisez-la en deux politiques ou plus. Si vous dépassez le quota du nombre de politiques associées à un IAM rôle, créez des rôles supplémentaires et répartissez les politiques entre eux pour atteindre le quota.
Support supplémentaire
Pour une liste des problèmes connus, consultez la page principale du GitHubWiki