Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah metrik kesehatan klaster
Metrik kesehatan cluster ditambahkan ke CloudWatch dasbor AWS ParallelCluster Amazon dimulai dengan AWS ParallelCluster versi 3.6.0. Di bagian berikut, Anda dapat mempelajari metrik kesehatan dasbor, dan tindakan yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan masalah.
Topik
Melihat grafik Kesalahan Penyediaan Instance
Jika Anda melihat nilai bukan nol dalam Instance Provisioning Errors
grafik, berarti instans Amazon EC2 untuk mendukung node slurm gagal diluncurkan di API atau. CreateFleet
RunInstance
Melihat IAMPolicyErrors
-
Apa yang terjadi?
Sejumlah instance gagal diluncurkan, yang disebabkan oleh izin yang tidak memadai dengan kode kesalahan.
UnauthorizedOperation
-
Bagaimana cara mengatasinya?
Jika Anda memiliki kustom yang dikonfigurasi InstanceRoleatau InstanceProfile, periksa kebijakan IAM Anda dan verifikasi bahwa Anda menggunakan kredenal yang benar.
Periksa
clustermgtd
file untuk rincian kesalahan node statis. Periksaslurm_resume.log
file untuk rincian kesalahan node dinamis. Gunakan detail untuk mempelajari lebih lanjut tentang izin yang hilang yang harus ditambahkan.
Melihat VcpuLimitErrors
-
Apa yang terjadi?
AWS ParallelCluster gagal meluncurkan instance karena mencapai batas vCPU untuk jenis instans Amazon EC2 tertentu yang dikonfigurasi untuk node komputasi cluster. Akun AWS
-
Bagaimana cara mengatasinya?
Periksa
VcpuLimitExceeded
kesalahan dalamclustermgtd
file untuk node statis, dan periksaslurm_resume.log
file untuk node dinamis untuk mendapatkan detail tambahan. Untuk mengatasi masalah ini, Anda dapat meminta peningkatan batas vCPU Anda. Untuk informasi selengkapnya tentang cara melihat batas saat ini dan meminta batas baru, lihat kuota layanan Amazon Elastic Compute Cloud di Panduan Pengguna Amazon Elastic Compute Cloud untuk Instans Linux.
Melihat VolumeLimitErrors
-
Apa yang terjadi?
Anda telah mencapai batas volume Amazon EBS pada Anda Akun AWS, dan AWS ParallelCluster tidak dapat meluncurkan instance dengan kode
InsufficientVolumeCapacity
kesalahan atau.VolumeLimitExceeded
-
Bagaimana cara mengatasinya?
Periksa
clustermgtd
file untuk node statis, dan periksaslurm_resume.log
file untuk node dinamis untuk mendapatkan detail batas volume tambahan. Untuk mengatasi masalah ini, Anda dapat menggunakan volume yang berbeda Wilayah AWS dan membersihkan volume yang ada, atau menghubungi Pusat AWS Dukungan untuk mengirimkan permintaan guna meningkatkan batas volume Amazon EBS Anda.
Melihat InsufficientCapacityErrors
-
Apa yang terjadi?
AWS ParallelCluster tidak memiliki kapasitas yang cukup untuk meluncurkan instans Amazon EC2 ke node belakang.
-
Bagaimana cara mengatasinya?
Periksa
clustermgtd
file untuk node statis, dan periksaslurm_resume.log
file untuk node dinamis untuk mendapatkan detail kesalahan kapasitas yang tidak mencukupi. Untuk memecahkan masalah ini, ikuti panduan di https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -/insufficient-capacity-errors.
OtherInstanceLaunchFailures
-
Apa yang terjadi?
Instans Amazon EC2 untuk mendukung node komputasi gagal diluncurkan dengan API atau.
CreateFleet
RunInstance
-
Bagaimana cara mengatasinya?
Periksa
clustermgtd
file untuk node statis, dan periksaslurm_resume.log
file untuk node dinamis untuk mendapatkan detail kesalahan.
Melihat grafik Kesalahan Instance Tidak Sehat
-
Apa yang terjadi?
Sejumlah instance komputasi diluncurkan tetapi kemudian dihentikan karena tidak sehat.
-
Bagaimana cara mengatasinya?
Untuk informasi selengkapnya tentang pemecahan masalah node yang tidak sehat, lihat. Memecahkan masalah penggantian dan penghentian node yang tidak terduga
Melihat InstanceBootstrapTimeoutError
-
Apa yang terjadi?
Sebuah instance tidak dapat bergabung dengan cluster di dalam
resume_timeout
(untuk node dinamis) ataunode_replacement_timeout
(untuk node statis). Hal ini dapat terjadi jika jaringan tidak dikonfigurasi dengan benar untuk node komputasi, atau dapat terjadi jika skrip kustom yang berjalan pada node komputasi membutuhkan waktu terlalu lama untuk diselesaikan. -
Bagaimana cara mengatasinya?
Untuk node dinamis, periksa
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:Node bootstrap error: Resume timeout expires for node
Untuk node statis, periksa
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:Node bootstrap error: Replacement timeout expires for node ... in replacement.
Untuk detail tambahan, periksa
/var/log/cloud-init-output.log
file untuk kesalahan. Anda dapat mengambil alamat IP node komputasi bermasalah dari fileclustermgtd
danslurm_resume
log.
Melihat EC2HealthCheckErrors
-
Apa yang terjadi?
Sebuah instans gagal dalam pemeriksaan kesehatan Amazon EC2.
-
Bagaimana cara mengatasinya?
Untuk selengkapnya tentang cara memecahkan masalah ini, lihat Memecahkan masalah instance dengan pemeriksaan status gagal.
Melihat ScheduledEventHealthCheckErrors
-
Apa yang terjadi?
Sebuah instans gagal dalam pemeriksaan kesehatan acara terjadwal Amazon EC2, dan itu tidak sehat.
-
Bagaimana cara mengatasinya?
Untuk informasi tentang cara memecahkan masalah ini, lihat Acara terjadwal untuk instans Anda.
Melihat NoCorrespondingInstanceErrors
-
Apa yang terjadi?
AWS ParallelCluster tidak dapat menemukan instance yang mendukung node. Node kemungkinan telah dihentikan sendiri selama operasi bootstrap. SlurmQueues/CustomActions/OnNodeStart| OnNodeConfiguredskrip, atau kesalahan jaringan dapat menghasilkan
NoCorrespondingInstanceErrors
. -
Bagaimana cara mengatasinya?
Untuk detail tambahan, periksa
/var/log/cloud-init-output.log
node komputasi.
Melihat grafik Compute Fleet Idle Time
Melihat MaxDynamicNodeIdleTime
yang secara signifikan lebih lama dari ambang Idle Time Scaledown
-
Apa yang terjadi?
Instance Anda tidak berakhir dengan benar.
MaxDynamicNodeIdleTime
menunjukkan waktu maksimum dalam hitungan detik bahwa node dinamis, yang didukung oleh instans Amazon EC2, tidak berfungsi. Ambang batas Idle Time Scaledown berasal dari parameter konfigurasi cluster. ScaledownIdletime Ketika node komputasi telah idle selama lebih dari detik Idle Time Scaledown, Slurm matikan node dan AWS ParallelCluster akhiri instance dukungan. Dalam hal ini, ada sesuatu yang mencegah penghentian instance. -
Bagaimana cara mengatasinya?
Untuk informasi lebih lanjut tentang masalah ini, lihat Mengganti, mengakhiri, atau mematikan instance dan node yang bermasalah diMemecahkan masalah penskalaan.