Visualizzazione del grafico degli errori di provisioning delle istanze Visualizzazione del grafico Unhealthy Instance Errors Visualizzazione del grafico Compute Fleet Idle Time

Risoluzione dei problemi relativi alle metriche di integrità del cluster

Le metriche sullo stato del cluster vengono aggiunte alla CloudWatch dashboard di AWS ParallelCluster Amazon a partire dalla AWS ParallelCluster versione 3.6.0. Nelle sezioni seguenti, puoi conoscere i parametri di salute della dashboard e le azioni che puoi intraprendere per risolvere e risolvere i problemi.

Argomenti

Visualizzazione del grafico degli errori di provisioning delle istanze
Visualizzazione del grafico Unhealthy Instance Errors
Visualizzazione del grafico Compute Fleet Idle Time

Visualizzazione del grafico degli errori di provisioning delle istanze

Se vedi un valore diverso da zero nel Instance Provisioning Errors grafico, significa che l'istanza Amazon EC2 per il backup dei nodi slurm non è stata avviata sull'API or. CreateFleet RunInstance

Vedendo `IAMPolicyErrors`

Cosa è successo?

Alcune istanze non sono state avviate, a causa di autorizzazioni insufficienti con codice di errore. UnauthorizedOperation
Come risolvere?

Se hai configurato un InstanceRoleor personalizzato InstanceProfile, controlla le tue policy IAM e verifica di utilizzare le credenziali corrette.

Controlla il clustermgtd file per i dettagli sugli errori statici dei nodi. Controlla il slurm_resume.log file per i dettagli degli errori dinamici del nodo. Usa i dettagli per saperne di più sulle autorizzazioni mancanti che devono essere aggiunte.

Vedendo `VcpuLimitErrors`

Cosa è successo?

AWS ParallelCluster non è riuscito ad avviare le istanze perché ha raggiunto il limite di vCPU per uno specifico Account AWS tipo di istanza Amazon EC2 configurato per i nodi di calcolo del cluster.
Come risolvere?

Controlla l'VcpuLimitExceedederrore nel clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere ulteriori dettagli. Per risolvere questo problema, puoi richiedere un aumento dei limiti di vCPU. Per ulteriori informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le quote dei servizi Amazon Elastic Compute Cloud nella Amazon Elastic Compute Cloud User Guide for Linux Instances.

Vedendo `VolumeLimitErrors`

Cosa è successo?

Hai raggiunto il limite di volume di Amazon EBS sul tuo Account AWS e AWS ParallelCluster non riesci ad avviare istanze con codice InsufficientVolumeCapacity di errore o. VolumeLimitExceeded
Come risolvere?

Controlla il clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere ulteriori dettagli sui limiti di volume. Per risolvere questo problema, puoi utilizzare un altro Regione AWS, pulire i volumi esistenti o contattare il AWS Support Center per inviare una richiesta di aumento del limite di volume di Amazon EBS.

Vedendo `InsufficientCapacityErrors`

Cosa è successo?

AWS ParallelCluster non dispone di una capacità sufficiente per avviare istanze Amazon EC2 sui backnode.
Come risolvere?

Controlla il clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere dettagli sugli errori di capacità insufficienti. Per risolvere il problema, segui le istruzioni disponibili all'indirizzo https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.

`OtherInstanceLaunchFailures`

Cosa è successo?

L'istanza Amazon EC2 per il backup dei nodi di calcolo non è stata avviata con l'API or. CreateFleet RunInstance
Come risolvere?

Controlla il clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere i dettagli dell'errore.

Visualizzazione del grafico Unhealthy Instance Errors

Cosa è successo?

Sono state lanciate diverse istanze di calcolo, ma in seguito sono state chiuse perché non funzionanti.
Come risolvere?

Per ulteriori informazioni sulla risoluzione dei problemi relativi ai nodi non integri, vedereRisoluzione dei problemi di sostituzioni e terminazioni impreviste dei nodi.

Vedendo `InstanceBootstrapTimeoutError`

Cosa è successo?

Un'istanza non può entrare a far parte del cluster all'interno di resume_timeout (per nodi dinamici) o node_replacement_timeout (per nodi statici). Ciò può verificarsi se la rete non è configurata correttamente per i nodi di calcolo oppure se gli script personalizzati in esecuzione sul nodo di calcolo impiegano troppo tempo per essere completati.
Come risolvere?

Per i nodi dinamici, controlla nel clustermgtd log (/var/log/parallelcluster/clustermgtd) l'indirizzo IP del nodo di calcolo e gli errori come i seguenti:
```
Node bootstrap error: Resume timeout expires for node
```
Per i nodi statici, controllate clustermgtd log (/var/log/parallelcluster/clustermgtd) per l'indirizzo IP del nodo di calcolo ed errori come i seguenti:
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
Per ulteriori dettagli, controllate la presenza di errori nel /var/log/cloud-init-output.log file. È possibile recuperare gli indirizzi IP dei nodi di calcolo problematici dai file di registro clustermgtd eslurm_resume.

Vedendo `EC2HealthCheckErrors`

Cosa è successo?

Un'istanza non ha superato il controllo dello stato di Amazon EC2.
Come risolvere?

Per informazioni su come risolvere questo problema, consulta Risolvere i problemi relativi alle istanze con controlli di stato non riusciti.

Vedendo `ScheduledEventHealthCheckErrors`

Cosa è successo?

Un'istanza non è riuscita a superare il controllo dello stato di un evento pianificato da Amazon EC2 e non è integra.
Come risolvere?

Per informazioni su come risolvere questo problema, consulta Eventi pianificati per le tue istanze.

Vedendo `NoCorrespondingInstanceErrors`

Cosa è successo?

AWS ParallelCluster non riesco a trovare istanze che supportano i nodi. È probabile che i nodi si siano interrotti automaticamente durante le operazioni di bootstrap. SlurmQueues/CustomActions/OnNodeStart| possono produrre errori di OnNodeConfiguredscript o di rete. NoCorrespondingInstanceErrors
Come risolvere?

Per ulteriori dettagli, consulta la sezione /var/log/cloud-init-output.log dedicata al nodo di calcolo.

Visualizzazione del grafico Compute Fleet Idle Time

Visualizzazione di un valore `MaxDynamicNodeIdleTime` significativamente più lungo della soglia di scalabilità del tempo di inattività

Cosa è successo?

La tua istanza non si sta concludendo correttamente. MaxDynamicNodeIdleTimemostra il tempo massimo, in secondi, di inattività di un nodo dinamico, supportato da un'istanza Amazon EC2. La soglia di Idle Time Scaledown è derivata dal parametro di configurazione del cluster. ScaledownIdletime Quando un nodo di calcolo è inattivo per più di secondi di Idle Time Scaledown, spegne il nodo e termina l'istanza di Slurm backup. AWS ParallelCluster In questo caso, qualcosa impedisce la chiusura dell'istanza.
Come risolvere?

Per ulteriori informazioni su questo problema, vedere Sostituzione, interruzione o spegnimento di istanze e nodi problematici inRisoluzione dei problemi di scalabilità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo

Risoluzione dei problemi di distribuzione dei cluster

Risoluzione dei problemi relativi alle metriche di integrità del cluster

Argomenti

Visualizzazione del grafico degli errori di provisioning delle istanze

Vedendo IAMPolicyErrors

Vedendo VcpuLimitErrors

Vedendo VolumeLimitErrors

Vedendo InsufficientCapacityErrors

OtherInstanceLaunchFailures