Validasi runtime sebelum menjalankan beban kerja produksi pada klaster Slurm HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Validasi runtime sebelum menjalankan beban kerja produksi pada klaster Slurm HyperPod

Untuk memeriksa runtime sebelum menjalankan beban kerja produksi apa pun di cluster Slurm HyperPod, gunakan skrip validasi runtime. hyperpod-precheck.py Skrip ini memeriksa apakah cluster Slurm memiliki semua paket yang diinstal untuk menjalankan Docker, jika cluster telah dipasang dengan benar FSx untuk sistem file Lustre dan direktori pengguna yang berbagi sistem file, dan jika deamon Slurm berjalan di semua node komputasi.

Untuk menjalankan skrip pada beberapa node sekaligus, gunakan srun seperti yang ditunjukkan pada contoh perintah berikut menjalankan skrip pada cluster Slurm 8 node.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
catatan

Untuk mempelajari lebih lanjut tentang skrip validasi seperti fungsi validasi runtime apa yang disediakan skrip dan pedoman untuk menyelesaikan masalah yang tidak lulus validasi, lihat Validasi runtime sebelum menjalankan beban kerja di repositori Pelatihan Terdistribusi Awsome. GitHub