Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Slurmmode terlindungi cluster
Ketika sebuah cluster berjalan dengan mode dilindungi diaktifkan, AWS ParallelCluster memantau dan melacak kegagalan bootstrap node komputasi saat node komputasi sedang diluncurkan. Hal ini dilakukan untuk mendeteksi apakah kegagalan ini terjadi terus menerus.
Jika berikut ini terdeteksi dalam antrian (partisi), cluster memasuki status dilindungi:
-
Kegagalan bootstrap node komputasi berturut-turut terjadi terus menerus tanpa peluncuran node komputasi yang berhasil.
-
Jumlah kegagalan mencapai ambang batas yang telah ditentukan.
Setelah cluster memasuki status dilindungi, AWS ParallelCluster menonaktifkan antrian dengan kegagalan pada atau di atas ambang batas yang telah ditentukan.
Slurmmodus cluster dilindungi ditambahkan dalam AWS ParallelCluster versi 3.0.0.
Anda dapat menggunakan mode terlindungi untuk mengurangi waktu dan sumber daya yang dihabiskan untuk siklus kegagalan bootstrap node komputasi.
Parameter mode terlindungi
protected_failure_count
protected_failure_count
menentukan jumlah kegagalan berturut-turut dalam antrian (partisi) yang mengaktifkan status dilindungi cluster.
protected_failure_count
Defaultnya adalah 10 dan mode terlindungi diaktifkan.
Jika protected_failure_count
lebih besar dari nol, mode terlindungi diaktifkan.
Jika protected_failure_count
kurang dari atau sama dengan nol, mode terlindungi dinonaktifkan.
Anda dapat mengubah protected_failure_count
nilainya dengan menambahkan parameter di file clustermgtd
konfigurasi yang terletak /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
di HeadNode
file.
Anda dapat memperbarui parameter ini kapan saja dan Anda tidak perlu menghentikan armada komputasi untuk melakukannya. Jika peluncuran berhasil dalam antrian sebelum jumlah kegagalan mencapaiprotected_failure_count
, hitungan kegagalan diatur ulang ke nol.
Periksa status klaster dalam status terlindungi
Saat klaster berada dalam status terlindungi, Anda dapat memeriksa status armada komputasi dan status node.
Hitung status armada
Status armada komputasi berada PROTECTED
dalam cluster yang berjalan dalam status dilindungi.
$
pcluster describe-compute-fleet --cluster-name <cluster-name>
--region <region-id>
{
"status": "PROTECTED",
"lastStatusUpdatedTime": "2022-04-22T00:31:24.000Z"
}
Status simpul
Untuk mempelajari antrian (partisi) mana yang memiliki kegagalan bootstrap yang telah mengaktifkan status terlindungi, masuk ke cluster dan jalankan perintah. sinfo
Partisi dengan kegagalan bootstrap pada atau di atas protected_failure_count
berada dalam INACTIVE
keadaan. Partisi tanpa kegagalan bootstrap pada atau di atas protected_failure_count
berada dalam UP
keadaan dan berfungsi seperti yang diharapkan.
PROTECTED
status tidak berdampak pada menjalankan pekerjaan. Jika pekerjaan berjalan pada partisi dengan kegagalan bootstrap pada atau di atasprotected_failure_count
, partisi diatur ke INACTIVE
setelah pekerjaan yang berjalan selesai.
Pertimbangkan status simpul yang ditunjukkan pada contoh berikut.
$
sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST queue1* inact infinite 10 down% queue1-dy-c5xlarge-[1-10] queue1* inact infinite 3490 idle~ queue1-dy-c5xlarge-[11-3500] queue2 up infinite 10 idle~ queue2-dy-c5xlarge-[1-10]
Partisi queue1
adalah INACTIVE
karena 10 kegagalan bootstrap node komputasi berturut-turut terdeteksi.
Instance di belakang node queue1-dy-c5xlarge-[1-10]
diluncurkan tetapi gagal bergabung dengan cluster karena status yang tidak sehat.
Cluster dalam status dilindungi.
Partisi queue2
tidak terpengaruh oleh kegagalan bootstrap diqueue1
. Itu di UP
negara bagian dan masih bisa menjalankan pekerjaan.
Cara menonaktifkan status yang dilindungi
Setelah kesalahan bootstrap diselesaikan, Anda dapat menjalankan perintah berikut untuk mengeluarkan cluster dari status yang dilindungi.
$
pcluster update-compute-fleet --cluster-name<cluster-name>
\ --region<region-id>
\ --status START_REQUESTED
Kegagalan bootstrap yang mengaktifkan status dilindungi
Kesalahan bootstrap yang mengaktifkan status dilindungi dibagi lagi menjadi tiga jenis berikut. Untuk mengidentifikasi jenis dan masalah, Anda dapat memeriksa apakah log AWS ParallelCluster yang dihasilkan. Jika log dibuat, Anda dapat memeriksanya untuk detail kesalahan. Untuk informasi selengkapnya, lihat Mengambil dan melestarikan log.
-
Kesalahan bootstrap yang menyebabkan instance berhenti sendiri.
Sebuah instance gagal di awal proses bootstrap, seperti instance yang berhenti sendiri karena kesalahan dalam skrip SlurmQueues\ CustomActions\ OnNodeStart| OnNodeConfigured.
Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:
Node bootstrap error: Node ... is in power up state without valid backing instance
Untuk node statis, lihat di
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Node ... is in power up state without valid backing instance
-
Node
resume_timeout
ataunode_replacement_timeout
kedaluwarsa.Sebuah instance tidak dapat bergabung dengan cluster di dalam
resume_timeout
(untuk node dinamis) ataunode_replacement_timeout
(untuk node statis). Itu tidak berakhir sendiri sebelum batas waktu. Misalnya, jaringan tidak diatur dengan benar untuk cluster dan node disetel keDOWN
status Slurm setelah batas waktu berakhir.Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:
Node bootstrap error: Resume timeout expires for node
Untuk node statis, lihat di
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Replacement timeout expires for node ... in replacement.
-
Node gagal memeriksa kesehatan.
Instance di belakang node gagal pemeriksaan kesehatan Amazon EC2 atau pemeriksaan kesehatan acara terjadwal, dan node diperlakukan sebagai node kegagalan bootstrap. Dalam hal ini, instance berakhir karena alasan di luar kendali. AWS ParallelCluster
Lihat di
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Node %s failed during bootstrap when performing health check.
-
Node komputasi gagal Slurm registrasi.
Pendaftaran
slurmd
daemon dengan daemon Slurm kontrol (slurmctld
) gagal dan menyebabkan status node komputasi berubah ke status.INVALID_REG
Node Slurm komputasi yang tidak dikonfigurasi dengan benar dapat menyebabkan kesalahan ini, seperti node terkomputasi yang dikonfigurasi dengan kesalahan spesifikasi node CustomSlurmSettingskomputasi.Lihat di file
slurmctld
log (/var/log/slurmctld.log
) pada node kepala, atau lihat di fileslurmd
log (/var/log/slurmd.log
) dari node komputasi gagal untuk kesalahan yang mirip dengan berikut ini:Setting node %s to INVAL with reason: ...
Cara men-debug mode yang dilindungi
Jika klaster Anda dalam status terlindungi, dan jika AWS ParallelCluster menghasilkan clustermgtd
log dari HeadNode
dan cloud-init-output
log dari node komputasi yang bermasalah, maka Anda dapat memeriksa log untuk detail kesalahan. Untuk informasi selengkapnya tentang cara mengambil log, lihatMengambil dan melestarikan log.
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) pada simpul kepala
Pesan log menunjukkan partisi mana yang mengalami kegagalan bootstrap dan jumlah kegagalan bootstrap yang sesuai.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - INFO - Partitions bootstrap failure count: {'queue1': 2}, cluster will be set into protected mode if protected failure count reach threshold.
Di clustermgtd
log, cari Found the following bootstrap failure nodes
untuk menemukan node mana yang gagal di-bootstrap.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - WARNING - Found the following bootstrap failure nodes: (x2) ['queue1-st-c5large-1(192.168.110.155)', 'broken-st-c5large-2(192.168.65.215)']
Di clustermgtd
log, cari Node bootstrap error
untuk menemukan alasan kegagalan.
[slurm_plugin.clustermgtd:_is_node_bootstrap_failure] - WARNING - Node bootstrap error: Node broken-st-c5large-2(192.168.65.215) is currently in replacement and no backing instance
cloud-init-output
log (/var/log/cloud-init-output.log
) pada node komputasi
Setelah mendapatkan alamat IP pribadi node kegagalan bootstrap di clustermgtd
log, Anda dapat menemukan log node komputasi yang sesuai dengan masuk ke node komputasi atau dengan mengikuti panduan Mengambil dan melestarikan log untuk mengambil log. Dalam kebanyakan kasus, /var/log/cloud-init-output
log dari node bermasalah menunjukkan langkah yang menyebabkan kegagalan bootstrap node komputasi.