Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jalankan pekerjaan node tunggal di AWS PCS
Untuk menjalankan pekerjaan menggunakan Slurm, Anda menyiapkan skrip pengiriman yang menentukan persyaratan pekerjaan dan mengirimkannya ke antrian dengan perintah. sbatch
Biasanya, ini dilakukan dari direktori bersama sehingga node login dan komputasi memiliki ruang umum untuk mengakses file.
Connect ke node login cluster Anda dan jalankan perintah berikut pada prompt shell nya.
-
Menjadi pengguna default. Ubah ke direktori bersama.
sudo su - ec2-user cd /shared
-
Gunakan perintah berikut untuk membuat contoh skrip pekerjaan:
cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
-
Kirim skrip pekerjaan ke penjadwal Slurm:
sbatch -p demo job.sh
-
Ketika pekerjaan diserahkan, itu akan mengembalikan ID pekerjaan sebagai nomor. Gunakan ID itu untuk memeriksa status pekerjaan. Ganti
job-id
dalam perintah berikut dengan nomor dikembalikan darisbatch
.squeue --job
job-id
squeue --job 1
squeue
Perintah mengembalikan output yang mirip dengan berikut ini:JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 demo test ec2-user CF 0:47 1 compute-1
-
Lanjutkan untuk memeriksa status pekerjaan hingga mencapai status
R
(berjalan). Pekerjaan dilakukan ketikasqueue
tidak mengembalikan apa pun. -
Periksa isi
/shared
direktori.ls -alth /shared
Output perintah mirip dengan yang berikut:
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
File bernama
single.1.out
dansingle.1.err
ditulis oleh salah satu node komputasi cluster Anda. Karena pekerjaan dijalankan di direktori bersama (/shared
), mereka juga tersedia di node login Anda. Inilah sebabnya mengapa Anda mengonfigurasi sistem file FSx for Lustre untuk cluster ini. -
Periksa isi
single.1.out
file.cat /shared/single.1.out
Output Anda akan serupa dengan yang berikut ini.
This is job test [1] running on compute-1, submitted from ip-10-3-13-181 Job complete