Memecahkan masalah metrik kesehatan klaster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah metrik kesehatan klaster

Metrik kesehatan cluster ditambahkan ke CloudWatch dasbor AWS ParallelCluster Amazon dimulai dengan AWS ParallelCluster versi 3.6.0. Di bagian berikut, Anda dapat mempelajari metrik kesehatan dasbor, dan tindakan yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan masalah.

Melihat grafik Kesalahan Penyediaan Instance

Jika Anda melihat nilai bukan nol dalam Instance Provisioning Errors grafik, berarti instans Amazon EC2 untuk mendukung node slurm gagal diluncurkan di API atau. CreateFleet RunInstance

Melihat IAMPolicyErrors

  • Apa yang terjadi?

    Sejumlah instance gagal diluncurkan, yang disebabkan oleh izin yang tidak memadai dengan kode kesalahan. UnauthorizedOperation

  • Bagaimana cara mengatasinya?

    Jika Anda memiliki kustom yang dikonfigurasi InstanceRoleatau InstanceProfile, periksa kebijakan IAM Anda dan verifikasi bahwa Anda menggunakan kredenal yang benar.

    Periksa clustermgtd file untuk rincian kesalahan node statis. Periksa slurm_resume.log file untuk rincian kesalahan node dinamis. Gunakan detail untuk mempelajari lebih lanjut tentang izin yang hilang yang harus ditambahkan.

Melihat VcpuLimitErrors

  • Apa yang terjadi?

    AWS ParallelCluster gagal meluncurkan instance karena mencapai batas vCPU untuk jenis instans Amazon EC2 tertentu yang dikonfigurasi untuk node komputasi cluster. Akun AWS

  • Bagaimana cara mengatasinya?

    Periksa VcpuLimitExceeded kesalahan dalam clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail tambahan. Untuk mengatasi masalah ini, Anda dapat meminta peningkatan batas vCPU Anda. Untuk informasi selengkapnya tentang cara melihat batas saat ini dan meminta batas baru, lihat kuota layanan Amazon Elastic Compute Cloud di Panduan Pengguna Amazon Elastic Compute Cloud untuk Instans Linux.

Melihat VolumeLimitErrors

  • Apa yang terjadi?

    Anda telah mencapai batas volume Amazon EBS pada Anda Akun AWS, dan AWS ParallelCluster tidak dapat meluncurkan instance dengan kode InsufficientVolumeCapacity kesalahan atau. VolumeLimitExceeded

  • Bagaimana cara mengatasinya?

    Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail batas volume tambahan. Untuk mengatasi masalah ini, Anda dapat menggunakan volume yang berbeda Wilayah AWS dan membersihkan volume yang ada, atau menghubungi Pusat AWS Dukungan untuk mengirimkan permintaan guna meningkatkan batas volume Amazon EBS Anda.

Melihat InsufficientCapacityErrors

OtherInstanceLaunchFailures

  • Apa yang terjadi?

    Instans Amazon EC2 untuk mendukung node komputasi gagal diluncurkan dengan API atau. CreateFleet RunInstance

  • Bagaimana cara mengatasinya?

    Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail kesalahan.

Melihat grafik Kesalahan Instance Tidak Sehat

Melihat InstanceBootstrapTimeoutError

  • Apa yang terjadi?

    Sebuah instance tidak dapat bergabung dengan cluster di dalam resume_timeout (untuk node dinamis) atau node_replacement_timeout (untuk node statis). Hal ini dapat terjadi jika jaringan tidak dikonfigurasi dengan benar untuk node komputasi, atau dapat terjadi jika skrip kustom yang berjalan pada node komputasi membutuhkan waktu terlalu lama untuk diselesaikan.

  • Bagaimana cara mengatasinya?

    Untuk node dinamis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:

    Node bootstrap error: Resume timeout expires for node

    Untuk node statis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Untuk detail tambahan, periksa /var/log/cloud-init-output.log file untuk kesalahan. Anda dapat mengambil alamat IP node komputasi bermasalah dari file clustermgtd dan slurm_resume log.

Melihat EC2HealthCheckErrors

  • Apa yang terjadi?

    Sebuah instans gagal dalam pemeriksaan kesehatan Amazon EC2.

  • Bagaimana cara mengatasinya?

    Untuk selengkapnya tentang cara memecahkan masalah ini, lihat Memecahkan masalah instance dengan pemeriksaan status gagal.

Melihat ScheduledEventHealthCheckErrors

  • Apa yang terjadi?

    Sebuah instans gagal dalam pemeriksaan kesehatan acara terjadwal Amazon EC2, dan itu tidak sehat.

  • Bagaimana cara mengatasinya?

    Untuk informasi tentang cara memecahkan masalah ini, lihat Acara terjadwal untuk instans Anda.

Melihat NoCorrespondingInstanceErrors

  • Apa yang terjadi?

    AWS ParallelCluster tidak dapat menemukan instance yang mendukung node. Node kemungkinan telah dihentikan sendiri selama operasi bootstrap. SlurmQueues/CustomActions/OnNodeStart| OnNodeConfiguredskrip, atau kesalahan jaringan dapat menghasilkanNoCorrespondingInstanceErrors.

  • Bagaimana cara mengatasinya?

    Untuk detail tambahan, periksa /var/log/cloud-init-output.log node komputasi.

Melihat grafik Compute Fleet Idle Time

Melihat MaxDynamicNodeIdleTime yang secara signifikan lebih lama dari ambang Idle Time Scaledown

  • Apa yang terjadi?

    Instance Anda tidak berakhir dengan benar. MaxDynamicNodeIdleTimemenunjukkan waktu maksimum dalam hitungan detik bahwa node dinamis, yang didukung oleh instans Amazon EC2, tidak berfungsi. Ambang batas Idle Time Scaledown berasal dari parameter konfigurasi cluster. ScaledownIdletime Ketika node komputasi telah idle selama lebih dari detik Idle Time Scaledown, Slurm matikan node dan AWS ParallelCluster akhiri instance dukungan. Dalam hal ini, ada sesuatu yang mencegah penghentian instance.

  • Bagaimana cara mengatasinya?

    Untuk informasi lebih lanjut tentang masalah ini, lihat Mengganti, mengakhiri, atau mematikan instance dan node yang bermasalah diMemecahkan masalah penskalaan.