Jalankan pekerjaan node tunggal di AWS PCS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan pekerjaan node tunggal di AWS PCS

Untuk menjalankan pekerjaan menggunakan Slurm, Anda menyiapkan skrip pengiriman yang menentukan persyaratan pekerjaan dan mengirimkannya ke antrian dengan perintah. sbatch Biasanya, ini dilakukan dari direktori bersama sehingga node login dan komputasi memiliki ruang umum untuk mengakses file.

Connect ke node login cluster Anda dan jalankan perintah berikut pada prompt shell nya.

  • Menjadi pengguna default. Ubah ke direktori bersama.

    sudo su - ec2-user cd /shared
  • Gunakan perintah berikut untuk membuat contoh skrip pekerjaan:

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • Kirim skrip pekerjaan ke penjadwal Slurm:

    sbatch -p demo job.sh
  • Ketika pekerjaan diserahkan, itu akan mengembalikan ID pekerjaan sebagai nomor. Gunakan ID itu untuk memeriksa status pekerjaan. Ganti job-id dalam perintah berikut dengan nomor dikembalikan darisbatch.

    squeue --job job-id
    squeue --job 1

    squeuePerintah mengembalikan output yang mirip dengan berikut ini:

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • Lanjutkan untuk memeriksa status pekerjaan hingga mencapai status R (berjalan). Pekerjaan dilakukan ketika squeue tidak mengembalikan apa pun.

  • Periksa isi /shared direktori.

    ls -alth /shared

    Output perintah mirip dengan yang berikut:

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    File bernama single.1.out dan single.1.err ditulis oleh salah satu node komputasi cluster Anda. Karena pekerjaan dijalankan di direktori bersama (/shared), mereka juga tersedia di node login Anda. Inilah sebabnya mengapa Anda mengonfigurasi sistem file FSx for Lustre untuk cluster ini.

  • Periksa isi single.1.out file.

    cat /shared/single.1.out

    Output Anda akan serupa dengan yang berikut ini.

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete