Jalankan pekerjaan node tunggal di AWS PCS

Untuk menjalankan pekerjaan menggunakan Slurm, Anda menyiapkan skrip pengiriman yang menentukan persyaratan pekerjaan dan mengirimkannya ke antrian dengan perintah. sbatch Biasanya, ini dilakukan dari direktori bersama sehingga node login dan komputasi memiliki ruang umum untuk mengakses file.

Connect ke node login cluster Anda dan jalankan perintah berikut pada prompt shell nya.

Menjadi pengguna default. Ubah ke direktori bersama.
```
sudo su - ec2-user
cd /shared
```

Gunakan perintah berikut untuk membuat contoh skrip pekerjaan:


cat << EOF > job.sh
#!/bin/bash
#SBATCH -J single
#SBATCH -o single.%j.out
#SBATCH -e single.%j.err

echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete"
EOF

Kirim skrip pekerjaan ke penjadwal Slurm:
```
sbatch -p demo job.sh
```
Ketika pekerjaan diserahkan, itu akan mengembalikan ID pekerjaan sebagai nomor. Gunakan ID itu untuk memeriksa status pekerjaan. Ganti job-id dalam perintah berikut dengan nomor dikembalikan darisbatch.
```
squeue --job job-id
```
```
squeue --job 1
```
squeuePerintah mengembalikan output yang mirip dengan berikut ini:
```
JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
1     demo      test ec2-user CF 0:47 1     compute-1
```
Lanjutkan untuk memeriksa status pekerjaan hingga mencapai status R (berjalan). Pekerjaan dilakukan ketika squeue tidak mengembalikan apa pun.
Periksa isi /shared direktori.
```
ls -alth /shared
```
Output perintah mirip dengan yang berikut:
```
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
-rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
-rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
```
File bernama single.1.out dan single.1.err ditulis oleh salah satu node komputasi cluster Anda. Karena pekerjaan dijalankan di direktori bersama (/shared), mereka juga tersedia di node login Anda. Inilah sebabnya mengapa Anda mengonfigurasi sistem file FSx for Lustre untuk cluster ini.

Periksa isi single.1.out file.


cat /shared/single.1.out

Output Anda akan serupa dengan yang berikut ini.

This is job test [1] running on compute-1, submitted from ip-10-3-13-181
Job complete

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Jelajahi lingkungan cluster

Jalankan MPI pekerjaan multi-node dengan Slurm