Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui un processo a nodo singolo in AWS PCS
Per eseguire un lavoro utilizzando Slurm, si prepara uno script di invio che specifica i requisiti del lavoro e lo si invia a una coda con il comando. sbatch
In genere, questa operazione viene eseguita da una directory condivisa in modo che i nodi di accesso e di calcolo abbiano uno spazio comune per l'accesso ai file.
Connect al nodo di login del cluster ed esegui i seguenti comandi al prompt della shell.
-
Diventa l'utente predefinito. Passa alla directory condivisa.
sudo su - ec2-user cd /shared
-
Utilizzate i seguenti comandi per creare uno script di lavoro di esempio:
cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
-
Invia lo script di lavoro allo scheduler Slurm:
sbatch -p demo job.sh
-
Quando il lavoro viene inviato, restituirà un ID del lavoro come numero. Usa quell'ID per controllare lo stato del lavoro. Replace (Sostituisci)
job-id
nel comando seguente con il numero restituito dasbatch
.squeue --job
job-id
squeue --job 1
Il
squeue
comando restituisce un output simile al seguente:JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 demo test ec2-user CF 0:47 1 compute-1
-
Continuare a controllare lo stato del processo finché non raggiunge lo stato
R
(in esecuzione). Il lavoro è terminato quandosqueue
non restituisce nulla. -
Ispeziona il contenuto della
/shared
directory.ls -alth /shared
L'output del comando è simile al seguente:
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
I file
single.1.err
denominatisingle.1.out
e scritti da uno dei nodi di calcolo del cluster. Poiché il processo è stato eseguito in una directory condivisa (/shared
), sono disponibili anche nel nodo di accesso. Questo è il motivo per cui hai configurato un file system FSx for Lustre per questo cluster. -
Ispeziona il contenuto del
single.1.out
file.cat /shared/single.1.out
L'output è simile a quello riportato di seguito:
This is job test [1] running on compute-1, submitted from ip-10-3-13-181 Job complete