Sto cercando di eseguire un lavoro - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Sto cercando di eseguire un lavoro

La sezione seguente fornisce possibili soluzioni per la risoluzione dei problemi in caso di problemi durante il tentativo di eseguire un processo.

srunil processo interattivo fallisce e restituisce un errore srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf

  • Perché ha fallito?

    È stato eseguito il srun comando per inviare un lavoro, quindi è stata aumentata la dimensione di una coda utilizzando il pcluster update-cluster comando senza riavviare il Slurm demoni dopo il completamento dell'aggiornamento.

    Slurm organizza Slurm demoni in una gerarchia ad albero per ottimizzare la comunicazione. Questa gerarchia viene aggiornata solo all'avvio dei demoni.

    Si supponga srun di dover avviare un processo e quindi eseguire il pcluster update-cluster comando per aumentare le dimensioni della coda. I nuovi nodi di calcolo vengono avviati come parte dell'aggiornamento. Quindi, Slurm mette in coda il lavoro su uno dei nuovi nodi di elaborazione. In questo caso, entrambi Slurm demoni e srun non rilevano i nuovi nodi di calcolo. srunrestituisce un errore perché non rileva i nuovi nodi.

  • Come risolvere?

    Riavviare il Slurm demoni su tutti i nodi di calcolo, quindi utilizzali srun per inviare il lavoro. È possibile pianificare il Slurm i demoni si riavviano eseguendo il scontrol reboot comando che riavvia i nodi di calcolo. Per ulteriori informazioni, vedere scontrol reboot nel Slurm documentazione. È anche possibile riavviare manualmente Slurm demoni sui nodi di calcolo richiedendo il riavvio dei servizi corrispondenti. systemd

Job è bloccato nello CF stato con squeue il comando

Questo potrebbe essere un problema con l'accensione dei nodi dinamici. Per ulteriori informazioni, consulta Visualizzazione degli errori nelle inizializzazioni dei nodi di calcolo.

Esecuzione di lavori su larga scala e visualizzazione nfsd: too many open connections, consider increasing the number of threads in /var/log/messages

Con un file system in rete, quando vengono raggiunti i limiti di rete, aumenta anche il tempo di attesa I/O. Ciò può comportare blocchi automatici poiché la rete viene utilizzata per scrivere dati sia per le metriche di rete che per quelle di I/O.

Nelle istanze di quinta generazione, utilizziamo il ENA driver per esporre i contatori di pacchetti. Questi contatori contano i pacchetti formati dal AWS momento in cui la rete raggiunge i limiti di larghezza di banda delle istanze. Puoi controllare questi contatori per vedere se sono maggiori di 0. Se lo sono, significa che hai superato i limiti di larghezza di banda. È possibile visualizzare questi contatori eseguendo. ethtool -S eth0 | grep exceeded

Il superamento dei limiti di rete è spesso il risultato del supporto di NFS troppe connessioni. Questa è una delle prime cose da verificare quando si raggiungono o superano i limiti di rete.

Ad esempio, l'output seguente mostra i pacchetti eliminati:

$ ethtool -S eth0 | grep exceeded bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0

Per evitare di ricevere questo messaggio, valuta la possibilità di modificare il tipo di istanza del nodo principale con un tipo di istanza più performante. Prendi in considerazione la possibilità di spostare lo storage dei dati su file system di archiviazione condivisi che non vengono esportati come NFS condivisione, come Amazon EFS o AmazonFSx. Per ulteriori informazioni, consulta Archiviazione condivisa e consulta le Best Practices nel AWS ParallelCluster Wiki su GitHub.

Esecuzione di un MPI lavoro

Attivazione della modalità di debug

Per abilitare la modalità di MPI debug Open, vedi Quali controlli offre Open MPI per facilitare il debug.

Per abilitare la modalità di MPI debug Intel, vedere Altre variabili di ambiente.

Visualizzazione MPI_ERRORS_ARE_FATAL e inserimento OPAL ERROR dell'output del lavoro

Questi codici di errore provengono dal MPI livello dell'applicazione. Per informazioni su come ottenere i log di MPI debug dall'applicazione, consulta. Attivazione della modalità di debug

Una possibile causa di questo errore è che l'applicazione è stata compilata per un'MPIimplementazione specifica, ad esempio OpenMPI, e si sta tentando di eseguirla con un'MPIimplementazione diversa, come Intel. MPI Assicurati di compilare ed eseguire l'applicazione con la stessa MPI implementazione.

Utilizzo mpirun con gestione DNS disattivata

Per i cluster creati con SlurmSettings/Dns/DisableManagedDnse UseEc2Hostnames impostati su, true Slurm il nome del nodo non è risolto da. DNS Slurm può avviare i MPI processi quando nodenames non sono abilitati e se il MPI lavoro viene eseguito in un Slurm contesto. Si consiglia di seguire le indicazioni contenute nel Slurm MPIGuida per l'utente con cui eseguire i MPI job Slurm.