Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi relativi alle metriche di integrità del cluster
Le metriche sullo stato del cluster vengono aggiunte alla CloudWatch dashboard di AWS ParallelCluster Amazon a partire dalla AWS ParallelCluster versione 3.6.0. Nelle sezioni seguenti, puoi conoscere i parametri di salute della dashboard e le azioni che puoi intraprendere per risolvere e risolvere i problemi.
Argomenti
Visualizzazione del grafico degli errori di provisioning delle istanze
Se vedi un valore diverso da zero nel Instance Provisioning Errors
grafico, significa che l'istanza Amazon EC2 per il backup dei nodi slurm non è stata avviata sull'API or. CreateFleet
RunInstance
Vedendo IAMPolicyErrors
-
Cosa è successo?
Alcune istanze non sono state avviate, a causa di autorizzazioni insufficienti con codice di errore.
UnauthorizedOperation
-
Come risolvere?
Se hai configurato un InstanceRoleor personalizzato InstanceProfile, controlla le tue policy IAM e verifica di utilizzare le credenziali corrette.
Controlla il
clustermgtd
file per i dettagli sugli errori statici dei nodi. Controlla ilslurm_resume.log
file per i dettagli degli errori dinamici del nodo. Usa i dettagli per saperne di più sulle autorizzazioni mancanti che devono essere aggiunte.
Vedendo VcpuLimitErrors
-
Cosa è successo?
AWS ParallelCluster non è riuscito ad avviare le istanze perché ha raggiunto il limite di vCPU per uno specifico Account AWS tipo di istanza Amazon EC2 configurato per i nodi di calcolo del cluster.
-
Come risolvere?
Controlla l'
VcpuLimitExceeded
errore nelclustermgtd
file per i nodi statici e controlla ilslurm_resume.log
file per i nodi dinamici per ottenere ulteriori dettagli. Per risolvere questo problema, puoi richiedere un aumento dei limiti di vCPU. Per ulteriori informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le quote dei servizi Amazon Elastic Compute Cloud nella Amazon Elastic Compute Cloud User Guide for Linux Instances.
Vedendo VolumeLimitErrors
-
Cosa è successo?
Hai raggiunto il limite di volume di Amazon EBS sul tuo Account AWS e AWS ParallelCluster non riesci ad avviare istanze con codice
InsufficientVolumeCapacity
di errore o.VolumeLimitExceeded
-
Come risolvere?
Controlla il
clustermgtd
file per i nodi statici e controlla ilslurm_resume.log
file per i nodi dinamici per ottenere ulteriori dettagli sui limiti di volume. Per risolvere questo problema, puoi utilizzare un altro Regione AWS, pulire i volumi esistenti o contattare il AWS Support Center per inviare una richiesta di aumento del limite di volume di Amazon EBS.
Vedendo InsufficientCapacityErrors
-
Cosa è successo?
AWS ParallelCluster non dispone di una capacità sufficiente per avviare istanze Amazon EC2 sui backnode.
-
Come risolvere?
Controlla il
clustermgtd
file per i nodi statici e controlla ilslurm_resume.log
file per i nodi dinamici per ottenere dettagli sugli errori di capacità insufficienti. Per risolvere il problema, segui le istruzioni disponibili all'indirizzo https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.
OtherInstanceLaunchFailures
-
Cosa è successo?
L'istanza Amazon EC2 per il backup dei nodi di calcolo non è stata avviata con l'API or.
CreateFleet
RunInstance
-
Come risolvere?
Controlla il
clustermgtd
file per i nodi statici e controlla ilslurm_resume.log
file per i nodi dinamici per ottenere i dettagli dell'errore.
Visualizzazione del grafico Unhealthy Instance Errors
-
Cosa è successo?
Sono state lanciate diverse istanze di calcolo, ma in seguito sono state chiuse perché non funzionanti.
-
Come risolvere?
Per ulteriori informazioni sulla risoluzione dei problemi relativi ai nodi non integri, vedereRisoluzione dei problemi di sostituzioni e terminazioni impreviste dei nodi.
Vedendo InstanceBootstrapTimeoutError
-
Cosa è successo?
Un'istanza non può entrare a far parte del cluster all'interno di
resume_timeout
(per nodi dinamici) onode_replacement_timeout
(per nodi statici). Ciò può verificarsi se la rete non è configurata correttamente per i nodi di calcolo oppure se gli script personalizzati in esecuzione sul nodo di calcolo impiegano troppo tempo per essere completati. -
Come risolvere?
Per i nodi dinamici, controlla nel
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) l'indirizzo IP del nodo di calcolo e gli errori come i seguenti:Node bootstrap error: Resume timeout expires for node
Per i nodi statici, controllate
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) per l'indirizzo IP del nodo di calcolo ed errori come i seguenti:Node bootstrap error: Replacement timeout expires for node ... in replacement.
Per ulteriori dettagli, controllate la presenza di errori nel
/var/log/cloud-init-output.log
file. È possibile recuperare gli indirizzi IP dei nodi di calcolo problematici dai file di registroclustermgtd
eslurm_resume
.
Vedendo EC2HealthCheckErrors
-
Cosa è successo?
Un'istanza non ha superato il controllo dello stato di Amazon EC2.
-
Come risolvere?
Per informazioni su come risolvere questo problema, consulta Risolvere i problemi relativi alle istanze con controlli di stato non riusciti.
Vedendo ScheduledEventHealthCheckErrors
-
Cosa è successo?
Un'istanza non è riuscita a superare il controllo dello stato di un evento pianificato da Amazon EC2 e non è integra.
-
Come risolvere?
Per informazioni su come risolvere questo problema, consulta Eventi pianificati per le tue istanze.
Vedendo NoCorrespondingInstanceErrors
-
Cosa è successo?
AWS ParallelCluster non riesco a trovare istanze che supportano i nodi. È probabile che i nodi si siano interrotti automaticamente durante le operazioni di bootstrap. SlurmQueues/CustomActions/OnNodeStart| possono produrre errori di OnNodeConfiguredscript o di rete.
NoCorrespondingInstanceErrors
-
Come risolvere?
Per ulteriori dettagli, consulta la sezione
/var/log/cloud-init-output.log
dedicata al nodo di calcolo.
Visualizzazione del grafico Compute Fleet Idle Time
Visualizzazione di un valore MaxDynamicNodeIdleTime
significativamente più lungo della soglia di scalabilità del tempo di inattività
-
Cosa è successo?
La tua istanza non si sta concludendo correttamente.
MaxDynamicNodeIdleTime
mostra il tempo massimo, in secondi, di inattività di un nodo dinamico, supportato da un'istanza Amazon EC2. La soglia di Idle Time Scaledown è derivata dal parametro di configurazione del cluster. ScaledownIdletime Quando un nodo di calcolo è inattivo per più di secondi di Idle Time Scaledown, spegne il nodo e termina l'istanza di Slurm backup. AWS ParallelCluster In questo caso, qualcosa impedisce la chiusura dell'istanza. -
Come risolvere?
Per ulteriori informazioni su questo problema, vedere Sostituzione, interruzione o spegnimento di istanze e nodi problematici inRisoluzione dei problemi di scalabilità.