Mencoba membuat cluster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mencoba membuat cluster

Saat menggunakan AWS ParallelCluster versi 3.5.0 dan yang lebih baru untuk membuat cluster, dan pembuatan cluster gagal dengan --rollback-on-failure set tofalse, gunakan pcluster describe-cluster CLI perintah untuk mendapatkan informasi status dan kegagalan. Dalam hal ini, pcluster describe-cluster output clusterStatus yang diharapkan adalahCREATE_FAILED. Periksa failures bagian dalam output untuk menemukan failureCode danfailureReason. Kemudian, di bagian berikut, temukan pencocokan failureCode untuk bantuan pemecahan masalah tambahan. Untuk informasi selengkapnya, lihat pcluster describe-cluster.

Di bagian berikut, kami sarankan Anda memeriksa log pada node kepala, seperti /var/log/chef-client.log file /var/log/cfn-init.log dan. Untuk informasi selengkapnya tentang AWS ParallelCluster log dan cara melihatnya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.

Jika Anda tidak memilikifailureCode, navigasikan ke AWS CloudFormation konsol untuk melihat tumpukan cluster. Periksa Status Reason untuk HeadNodeWaitCondition atau kegagalan pada sumber daya lain untuk menemukan rincian kegagalan tambahan. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED. Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan pada node kepala.

failureCodeadalah OnNodeConfiguredExecutionFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan OnNodeConfigured skrip setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeConfiguredDownloadFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh.

  • Bagaimana cara mengatasinya?

    Pastikan bahwa URL itu valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.

    Periksa /var/log/cfn-init.log filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeConfigured skrip, termasuk mengunduh, setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeConfiguredFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeConfigured skrip setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeStartExecutionFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan OnNodeStart skrip setelah Running command runpreinstall pesan.

failureCodeadalah OnNodeStartDownloadFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh.

  • Bagaimana cara mengatasinya?

    Pastikan bahwa URL itu valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.

    Periksa /var/log/cfn-init.log filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeStart skrip, termasuk mengunduh, setelah Running command runpreinstall pesan.

failureCodeadalah OnNodeStartFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian node kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeStart skrip setelah Running command runpreinstall pesan.

failureCodeadalah EbsMountFailure

  • Mengapa gagal?

    EBSVolume yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah EfsMountFailure

  • Mengapa gagal?

    EFSVolume Amazon yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Jika Anda mendefinisikan sistem EFS file Amazon yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/EfsSettings/FileSystemId.

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah FsxMountFailure

  • Mengapa gagal?

    Sistem FSx file Amazon yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Jika Anda mendefinisikan sistem FSx file Amazon yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/FsxLustreSettings/FileSystemId.

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah RaidMountFailure

  • Mengapa gagal?

    RAIDVolume yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah AmiVersionMismatch

  • Mengapa gagal?

    AWS ParallelCluster Versi yang digunakan untuk membuat kustom AMI berbeda dari AWS ParallelCluster versi yang digunakan untuk mengkonfigurasi cluster. Di CloudFormation konsol, lihat detail CloudFormation tumpukan cluster dan periksa Status Reason HeadNodeWaitCondition untuk mendapatkan detail tambahan tentang AWS ParallelCluster versi dan fileAMI. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED.

  • Bagaimana cara mengatasinya?

    Pastikan AWS ParallelCluster versi yang digunakan untuk membuat kustom AMI adalah AWS ParallelCluster versi yang sama yang digunakan untuk mengkonfigurasi cluster. Anda dapat mengubah AMI versi kustom atau pcluster CLI versi untuk membuatnya sama.

failureCodeadalah InvalidAmi

  • Mengapa gagal?

    Kustom AMI tidak valid karena tidak dibuat menggunakan. AWS ParallelCluster

  • Bagaimana cara mengatasinya?

    Gunakan pcluster build-image perintah untuk membuat AMI dengan membuat gambar induk AndaAMI. Untuk informasi selengkapnya, lihat pcluster build-image.

failureCodeadalah HeadNodeBootstrapFailure dengan failureReason Gagal mengatur simpul kepala.

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. Misalnya, bisa jadi cluster dalam status dilindungi, dan ini bisa disebabkan oleh kegagalan untuk menyediakan armada komputasi statis.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log. file untuk rincian kegagalan.

    catatan

    Jika Anda melihat RuntimeError pengecualianCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, klaster dalam status dilindungi. Untuk informasi selengkapnya, lihat Cara men-debug mode yang dilindungi.

failureCodeHeadNodeBootstrapFailuredengan waktu pembuatan failureReason Cluster habis.

  • Mengapa gagal?

    Secara default, ada batas waktu 30 menit untuk menyelesaikan pembuatan cluster. Jika pembuatan klaster belum selesai dalam jangka waktu ini, pembuatan klaster gagal dengan kesalahan batas waktu. Pembuatan cluster dapat batas waktu karena berbagai alasan. Misalnya, kegagalan batas waktu dapat disebabkan oleh kegagalan pembuatan node kepala, masalah jaringan, skrip khusus yang terlalu lama untuk dijalankan di node kepala, kesalahan dalam skrip khusus yang berjalan di node komputasi, atau waktu tunggu yang lama untuk penyediaan node komputasi. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan untuk rincian kegagalan. Untuk informasi lebih lanjut tentang AWS ParallelCluster log dan cara mendapatkannya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.

    Anda mungkin menemukan yang berikut di log ini.

    • Melihat di Waiting for static fleet capacity provisioning dekat akhir chef-client.log

      Ini menunjukkan bahwa waktu pembuatan cluster habis saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.

    • Melihat OnNodeConfigured atau skrip node OnNodeStart kepala belum selesai di akhir cfn-init.log

      Ini menunjukkan bahwa skrip OnNodeConfigured atau OnNodeStart kustom membutuhkan waktu lama untuk dijalankan dan menyebabkan kesalahan batas waktu. Periksa skrip kustom Anda untuk masalah yang mungkin menyebabkannya berjalan untuk waktu yang lama. Jika skrip kustom Anda memerlukan waktu yang lama untuk dijalankan, pertimbangkan untuk mengubah batas batas waktu dengan menambahkan DevSettings bagian ke file konfigurasi cluster Anda, seperti yang ditunjukkan pada contoh berikut:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • Tidak dapat menemukan log, atau node kepala tidak berhasil dibuat

      Ada kemungkinan bahwa node kepala tidak berhasil dibuat dan log tidak dapat ditemukan. Di CloudFormation konsol, lihat detail tumpukan cluster untuk memeriksa detail kegagalan tambahan.

failureCodeHeadNodeBootstrapFailuredengan failureReason Gagal mem-bootstrap simpul kepala.

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan.

failureCodeadalah ResourceCreationFailure

  • Mengapa gagal?

    Penciptaan beberapa sumber daya gagal selama proses pembuatan cluster. Kegagalan dapat terjadi karena berbagai alasan. Misalnya, kegagalan pembuatan sumber daya dapat disebabkan oleh masalah kapasitas atau IAM kebijakan yang salah konfigurasi.

  • Bagaimana cara mengatasinya?

    Di CloudFormation konsol, lihat tumpukan cluster untuk memeriksa detail kegagalan pembuatan sumber daya tambahan.

failureCodeadalah ClusterCreationFailure

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Di CloudFormation konsol, lihat tumpukan cluster dan periksa Status Reason HeadNodeWaitCondition untuk menemukan rincian kegagalan tambahan.

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan.

Melihat WaitCondition timed out... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeHeadNodeBootstrapFailuredengan waktu pembuatan failureReason Cluster habis..

Melihat Resource creation cancelled di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah ResourceCreationFailure.

Melihat Failed to run cfn-init... atau kesalahan lain di AWS CloudFormation tumpukan

Periksa /var/log/cfn-init.log dan /var/log/chef-client.log untuk rincian kegagalan tambahan.

Melihat chef-client.log berakhir dengan INFO: Waiting for static fleet capacity provisioning

Ini terkait dengan batas waktu pembuatan cluster saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.

Melihat Failed to run preinstall or postinstall in cfn-init.log

Anda memiliki OnNodeStart skrip OnNodeConfigured atau di HeadNode bagian konfigurasi cluster. Script tidak berfungsi dengan benar. Periksa /var/log/cfn-init.log file untuk detail kesalahan skrip kustom.

Melihat This AMI was created with xxx, but is trying to be used with xxx... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah AmiVersionMismatch.

Melihat This AMI was not baked by AWS ParallelCluster... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah InvalidAmi.

Melihat pcluster create-cluster perintah gagal dijalankan secara lokal

Periksa ~/.parallelcluster/pcluster-cli.log di sistem file lokal Anda untuk rincian kegagalan.

Dukungan tambahan

Ikuti panduan pemecahan masalah di. Memecahkan masalah penerapan klaster

Periksa untuk melihat apakah skenario Anda tercakup dalam Masalah GitHub yang Diketahui di AWS ParallelCluster on GitHub.