Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sebuah EC2 instance di AWS PCS dihentikan dan diganti setelah reboot
Ikhtisar masalah
Setelah sebuah EC2 instance dalam grup node komputasi di-boot ulang, AWS PCS secara otomatis mengakhiri dan menggantikan instance.
Mengapa ini terjadi
AWS PCStidak mendukung reboot instance. Jika sebuah EC2 instance di-boot ulang, AWS PCS anggap instance tidak sehat dan menggantikannya. Jika AWS PCS terus-menerus menghentikan dan mengganti instance Anda, itu mungkin karena sesuatu me-reboot instance Anda setelah diluncurkan. Beberapa contoh termasuk reboot dengan otomatisasi pada EC2 instance (seperti reboot otomatis setelah patch), otomatisasi eksternal untuk EC2 instance (seperti aplikasi manajemen jaringan), AWS layanan lain (seperti AWS Systems Manager), atau reboot manual oleh seseorang.
Apa yang harus dilakukan
Anda dapat memeriksa slurmctld
atau slurmd
log Anda untuk melihat apakah instance Anda di-boot ulang. Untuk informasi selengkapnya, silakan lihat AWS PCSlog penjadwal dan Memantau AWS PCS instans menggunakan Amazon CloudWatch. Contoh entri slurmctld
log berikut menunjukkan bahwa instance reboot:
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
Mem-boot ulang karena menambal
Reboot sering diperlukan setelah Anda menerapkan tambalan. Jangan menerapkan patch langsung ke EC2 instance yang merupakan bagian dari grup node AWS PCS komputasi. Jika Anda harus menambal EC2 instance, Anda harus menerapkan tambalan ke Amazon Machine Image (AMI) yang diperbarui dan memperbarui grup node komputasi Anda untuk menggunakan yang diperbarui. AMI EC2Instance baru yang AWS PCS diluncurkan untuk grup node komputasi tersebut akan menggunakan yang diperbarui (ditambal). AMI Untuk informasi selengkapnya, lihat Gambar Mesin Amazon Kustom (AMIs) untuk AWS PCS.