Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mencoba menjalankan pekerjaan
Bagian berikut menyediakan solusi pemecahan masalah yang mungkin jika Anda mengalami masalah saat mencoba menjalankan pekerjaan.
srun
pekerjaan interaktif gagal dengan kesalahan srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf
-
Mengapa gagal?
Anda menjalankan
srun
perintah untuk mengirimkan pekerjaan, dan kemudian Anda meningkatkan ukuran antrian dengan menggunakanpcluster update-cluster
perintah tanpa memulai ulang Slurm daemon setelah pembaruan selesai.Slurm mengorganisasi Slurm daemon dalam hierarki pohon untuk mengoptimalkan komunikasi. Hirarki ini hanya diperbarui saat daemon dimulai.
Misalkan Anda menggunakan
srun
untuk meluncurkan pekerjaan dan kemudian menjalankanpcluster update-cluster
perintah untuk meningkatkan ukuran antrian. Node komputasi baru diluncurkan sebagai bagian dari pembaruan. Kemudian, Slurm mengantri pekerjaan Anda ke salah satu node komputasi baru. Dalam hal ini, keduanya Slurm daemon dansrun
tidak mendeteksi node komputasi baru.srun
mengembalikan kesalahan karena tidak mendeteksi node baru. -
Bagaimana cara mengatasinya?
Mulai ulang Slurm daemon pada semua node komputasi, dan kemudian gunakan
srun
untuk mengirimkan pekerjaan Anda. Anda dapat menjadwalkan Slurm daemon restart dengan menjalankanscontrol reboot
perintah yang memulai ulang node komputasi. Untuk informasi selengkapnya, lihat scontrol rebootdi Slurm dokumentasi. Anda juga dapat me-restart secara manual Slurm daemon pada node komputasi dengan meminta restart layanan terkait. systemd
Job terjebak dalam CF
keadaan dengan squeue
perintah
Ini mungkin masalah dengan node dinamis yang menyala. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.
Menjalankan pekerjaan skala besar dan melihat nfsd: too many open connections, consider increasing
the number of threads in /var/log/messages
Dengan sistem file jaringan, ketika batas jaringan tercapai, waktu tunggu I/O juga meningkat. Ini dapat menghasilkan penguncian lunak karena jaringan digunakan untuk menulis data untuk jaringan dan metrik I/O.
Dengan instance generasi ke-5, kami menggunakan ENA driver untuk mengekspos penghitung paket. Penghitung ini menghitung paket yang dibentuk oleh AWS ketika jaringan mencapai batas bandwidth instance. Anda dapat memeriksa penghitung ini untuk melihat apakah mereka lebih besar dari 0. Jika ya, maka Anda telah melampaui batas bandwidth Anda. Anda dapat melihat penghitung ini dengan menjalankanethtool -S eth0 | grep exceeded
.
Melebihi batas jaringan seringkali merupakan hasil dari mendukung terlalu banyak NFS koneksi. Ini adalah salah satu hal pertama yang harus diperiksa ketika Anda mencapai atau melampaui batas jaringan.
Misalnya, output berikut menunjukkan paket yang dijatuhkan:
$
ethtool -S eth0 | grep exceeded
bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0
Untuk menghindari pesan ini, pertimbangkan untuk mengubah tipe instance node head ke tipe instance yang lebih berkinerja. Pertimbangkan untuk memindahkan penyimpanan data Anda ke sistem file penyimpanan bersama yang tidak diekspor sebagai NFS saham, seperti Amazon EFS atau AmazonFSx. Untuk informasi selengkapnya, lihat Penyimpanan bersama dan Praktik Terbaik
Menjalankan MPI pekerjaan
Mengaktifkan mode debug
Untuk mengaktifkan mode MPI debug Terbuka, lihat Kontrol apa yang MPI dimiliki Open dalam proses debug
Untuk mengaktifkan mode MPI debug Intel, lihat Variabel Lingkungan Lainnya
Melihat MPI_ERRORS_ARE_FATAL
dan OPAL ERROR
dalam output pekerjaan
Kode kesalahan ini berasal dari MPI lapisan dalam aplikasi Anda. Untuk mempelajari cara mendapatkan log MPI debug dari aplikasi Anda, lihatMengaktifkan mode debug.
Kemungkinan penyebab kesalahan ini adalah aplikasi Anda telah dikompilasi untuk MPI implementasi tertentu, seperti OpenMPI, dan Anda mencoba menjalankannya dengan MPI implementasi yang berbeda, seperti IntelMPI. Pastikan Anda berdua mengkompilasi dan menjalankan aplikasi Anda dengan MPI implementasi yang sama.
Menggunakan mpirun
dengan dikelola DNS dinonaktifkan
Untuk cluster yang dibuat SlurmSettingsdengan/Dns/DisableManagedDnsdan UseEc2Hostnames disetel ke, true
Slurm nama node tidak diselesaikan olehDNS. Slurm dapatkah MPI proses bootstrap saat nodenames
tidak diaktifkan dan jika MPI pekerjaan dijalankan di Slurm konteks. Kami merekomendasikan mengikuti panduan di Slurm MPIPanduan Pengguna