Risoluzione dei problemi relativi alle metriche di integrità del cluster - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi relativi alle metriche di integrità del cluster

Le metriche sullo stato del cluster vengono aggiunte alla CloudWatch dashboard di AWS ParallelCluster Amazon a partire dalla AWS ParallelCluster versione 3.6.0. Nelle sezioni seguenti, puoi conoscere i parametri di salute della dashboard e le azioni che puoi intraprendere per risolvere e risolvere i problemi.

Visualizzazione del grafico degli errori di provisioning delle istanze

Se vedi un valore diverso da zero nel Instance Provisioning Errors grafico, significa che l'istanza Amazon EC2 per il backup dei nodi slurm non è stata avviata sull'API or. CreateFleet RunInstance

Vedendo IAMPolicyErrors

  • Cosa è successo?

    Alcune istanze non sono state avviate, a causa di autorizzazioni insufficienti con codice di errore. UnauthorizedOperation

  • Come risolvere?

    Se hai configurato un InstanceRoleor personalizzato InstanceProfile, controlla le tue policy IAM e verifica di utilizzare le credenziali corrette.

    Controlla il clustermgtd file per i dettagli sugli errori statici dei nodi. Controlla il slurm_resume.log file per i dettagli degli errori dinamici del nodo. Usa i dettagli per saperne di più sulle autorizzazioni mancanti che devono essere aggiunte.

Vedendo VcpuLimitErrors

  • Cosa è successo?

    AWS ParallelCluster non è riuscito ad avviare le istanze perché ha raggiunto il limite di vCPU per uno specifico Account AWS tipo di istanza Amazon EC2 configurato per i nodi di calcolo del cluster.

  • Come risolvere?

    Controlla l'VcpuLimitExceedederrore nel clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere ulteriori dettagli. Per risolvere questo problema, puoi richiedere un aumento dei limiti di vCPU. Per ulteriori informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le quote dei servizi Amazon Elastic Compute Cloud nella Amazon Elastic Compute Cloud User Guide for Linux Instances.

Vedendo VolumeLimitErrors

  • Cosa è successo?

    Hai raggiunto il limite di volume di Amazon EBS sul tuo Account AWS e AWS ParallelCluster non riesci ad avviare istanze con codice InsufficientVolumeCapacity di errore o. VolumeLimitExceeded

  • Come risolvere?

    Controlla il clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere ulteriori dettagli sui limiti di volume. Per risolvere questo problema, puoi utilizzare un altro Regione AWS, pulire i volumi esistenti o contattare il AWS Support Center per inviare una richiesta di aumento del limite di volume di Amazon EBS.

Vedendo InsufficientCapacityErrors

OtherInstanceLaunchFailures

  • Cosa è successo?

    L'istanza Amazon EC2 per il backup dei nodi di calcolo non è stata avviata con l'API or. CreateFleet RunInstance

  • Come risolvere?

    Controlla il clustermgtd file per i nodi statici e controlla il slurm_resume.log file per i nodi dinamici per ottenere i dettagli dell'errore.

Visualizzazione del grafico Unhealthy Instance Errors

Vedendo InstanceBootstrapTimeoutError

  • Cosa è successo?

    Un'istanza non può entrare a far parte del cluster all'interno di resume_timeout (per nodi dinamici) o node_replacement_timeout (per nodi statici). Ciò può verificarsi se la rete non è configurata correttamente per i nodi di calcolo oppure se gli script personalizzati in esecuzione sul nodo di calcolo impiegano troppo tempo per essere completati.

  • Come risolvere?

    Per i nodi dinamici, controlla nel clustermgtd log (/var/log/parallelcluster/clustermgtd) l'indirizzo IP del nodo di calcolo e gli errori come i seguenti:

    Node bootstrap error: Resume timeout expires for node

    Per i nodi statici, controllate clustermgtd log (/var/log/parallelcluster/clustermgtd) per l'indirizzo IP del nodo di calcolo ed errori come i seguenti:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Per ulteriori dettagli, controllate la presenza di errori nel /var/log/cloud-init-output.log file. È possibile recuperare gli indirizzi IP dei nodi di calcolo problematici dai file di registro clustermgtd eslurm_resume.

Vedendo EC2HealthCheckErrors

  • Cosa è successo?

    Un'istanza non ha superato il controllo dello stato di Amazon EC2.

  • Come risolvere?

    Per informazioni su come risolvere questo problema, consulta Risolvere i problemi relativi alle istanze con controlli di stato non riusciti.

Vedendo ScheduledEventHealthCheckErrors

  • Cosa è successo?

    Un'istanza non è riuscita a superare il controllo dello stato di un evento pianificato da Amazon EC2 e non è integra.

  • Come risolvere?

    Per informazioni su come risolvere questo problema, consulta Eventi pianificati per le tue istanze.

Vedendo NoCorrespondingInstanceErrors

  • Cosa è successo?

    AWS ParallelCluster non riesco a trovare istanze che supportano i nodi. È probabile che i nodi si siano interrotti automaticamente durante le operazioni di bootstrap. SlurmQueues/CustomActions/OnNodeStart| possono produrre errori di OnNodeConfiguredscript o di rete. NoCorrespondingInstanceErrors

  • Come risolvere?

    Per ulteriori dettagli, consulta la sezione /var/log/cloud-init-output.log dedicata al nodo di calcolo.

Visualizzazione del grafico Compute Fleet Idle Time

Visualizzazione di un valore MaxDynamicNodeIdleTime significativamente più lungo della soglia di scalabilità del tempo di inattività

  • Cosa è successo?

    La tua istanza non si sta concludendo correttamente. MaxDynamicNodeIdleTimemostra il tempo massimo, in secondi, di inattività di un nodo dinamico, supportato da un'istanza Amazon EC2. La soglia di Idle Time Scaledown è derivata dal parametro di configurazione del cluster. ScaledownIdletime Quando un nodo di calcolo è inattivo per più di secondi di Idle Time Scaledown, spegne il nodo e termina l'istanza di Slurm backup. AWS ParallelCluster In questo caso, qualcosa impedisce la chiusura dell'istanza.

  • Come risolvere?

    Per ulteriori informazioni su questo problema, vedere Sostituzione, interruzione o spegnimento di istanze e nodi problematici inRisoluzione dei problemi di scalabilità.