Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mencoba membuat cluster
Saat menggunakan AWS ParallelCluster versi 3.5.0 dan yang lebih baru untuk membuat cluster, dan pembuatan cluster gagal dengan --rollback-on-failure
set tofalse
, gunakan pcluster describe-cluster CLI perintah untuk mendapatkan informasi status dan kegagalan. Dalam hal ini, pcluster describe-cluster
output clusterStatus
yang diharapkan adalahCREATE_FAILED
. Periksa failures
bagian dalam output untuk menemukan failureCode
danfailureReason
. Kemudian, di bagian berikut, temukan pencocokan failureCode
untuk bantuan pemecahan masalah tambahan. Untuk informasi selengkapnya, lihat pcluster describe-cluster.
Di bagian berikut, kami sarankan Anda memeriksa log pada node kepala, seperti /var/log/chef-client.log
file /var/log/cfn-init.log
dan. Untuk informasi selengkapnya tentang AWS ParallelCluster log dan cara melihatnya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.
Jika Anda tidak memilikifailureCode
, navigasikan ke AWS CloudFormation konsol untuk melihat tumpukan cluster. Periksa Status Reason
untuk HeadNodeWaitCondition
atau kegagalan pada sumber daya lain untuk menemukan rincian kegagalan tambahan. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED. Periksa /var/log/chef-client.log
file /var/log/cfn-init.log
dan pada node kepala.
failureCode
adalah OnNodeConfiguredExecutionFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfigured
bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.log
file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait denganOnNodeConfigured
skrip setelahRunning command runpostinstall
pesan.
failureCode
adalah OnNodeConfiguredDownloadFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfigured
bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh. -
Bagaimana cara mengatasinya?
Pastikan bahwa URL itu valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.
Periksa
/var/log/cfn-init.log
filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeConfigured
skrip, termasuk mengunduh, setelahRunning command runpostinstall
pesan.
failureCode
adalah OnNodeConfiguredFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfigured
bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.log
filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeConfigured
skrip setelahRunning command runpostinstall
pesan.
failureCode
adalah OnNodeStartExecutionFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStart
bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.log
file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait denganOnNodeStart
skrip setelahRunning command runpreinstall
pesan.
failureCode
adalah OnNodeStartDownloadFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStart
bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh. -
Bagaimana cara mengatasinya?
Pastikan bahwa URL itu valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.
Periksa
/var/log/cfn-init.log
filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeStart
skrip, termasuk mengunduh, setelahRunning command runpreinstall
pesan.
failureCode
adalah OnNodeStartFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStart
bagian node kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.log
filenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeStart
skrip setelahRunning command runpreinstall
pesan.
failureCode
adalah EbsMountFailure
-
Mengapa gagal?
EBSVolume yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log
file untuk rincian kegagalan.
failureCode
adalah EfsMountFailure
-
Mengapa gagal?
EFSVolume Amazon yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Jika Anda mendefinisikan sistem EFS file Amazon yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/EfsSettings/FileSystemId.
Periksa
/var/log/chef-client.log
file untuk rincian kegagalan.
failureCode
adalah FsxMountFailure
-
Mengapa gagal?
Sistem FSx file Amazon yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Jika Anda mendefinisikan sistem FSx file Amazon yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/FsxLustreSettings/FileSystemId.
Periksa
/var/log/chef-client.log
file untuk rincian kegagalan.
failureCode
adalah RaidMountFailure
-
Mengapa gagal?
RAIDVolume yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log
file untuk rincian kegagalan.
failureCode
adalah AmiVersionMismatch
-
Mengapa gagal?
AWS ParallelCluster Versi yang digunakan untuk membuat kustom AMI berbeda dari AWS ParallelCluster versi yang digunakan untuk mengkonfigurasi cluster. Di CloudFormation konsol, lihat detail CloudFormation tumpukan cluster dan periksa
Status Reason
HeadNodeWaitCondition
untuk mendapatkan detail tambahan tentang AWS ParallelCluster versi dan fileAMI. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED. -
Bagaimana cara mengatasinya?
Pastikan AWS ParallelCluster versi yang digunakan untuk membuat kustom AMI adalah AWS ParallelCluster versi yang sama yang digunakan untuk mengkonfigurasi cluster. Anda dapat mengubah AMI versi kustom atau
pcluster
CLI versi untuk membuatnya sama.
failureCode
adalah InvalidAmi
-
Mengapa gagal?
Kustom AMI tidak valid karena tidak dibuat menggunakan. AWS ParallelCluster
-
Bagaimana cara mengatasinya?
Gunakan
pcluster build-image
perintah untuk membuat AMI dengan membuat gambar induk AndaAMI. Untuk informasi selengkapnya, lihat pcluster build-image.
failureCode
adalah HeadNodeBootstrapFailure
dengan failureReason
Gagal mengatur simpul kepala.
-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. Misalnya, bisa jadi cluster dalam status dilindungi, dan ini bisa disebabkan oleh kegagalan untuk menyediakan armada komputasi statis.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log.
file untuk rincian kegagalan.catatan
Jika Anda melihat
RuntimeError
pengecualianCluster state has been set to PROTECTED mode due to failures detected in static node provisioning
, klaster dalam status dilindungi. Untuk informasi selengkapnya, lihat Cara men-debug mode yang dilindungi.
failureCode
HeadNodeBootstrapFailure
dengan waktu pembuatan failureReason
Cluster habis.
-
Mengapa gagal?
Secara default, ada batas waktu 30 menit untuk menyelesaikan pembuatan cluster. Jika pembuatan klaster belum selesai dalam jangka waktu ini, pembuatan klaster gagal dengan kesalahan batas waktu. Pembuatan cluster dapat batas waktu karena berbagai alasan. Misalnya, kegagalan batas waktu dapat disebabkan oleh kegagalan pembuatan node kepala, masalah jaringan, skrip khusus yang terlalu lama untuk dijalankan di node kepala, kesalahan dalam skrip khusus yang berjalan di node komputasi, atau waktu tunggu yang lama untuk penyediaan node komputasi. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log
file/var/log/cfn-init.log
dan untuk rincian kegagalan. Untuk informasi lebih lanjut tentang AWS ParallelCluster log dan cara mendapatkannya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.Anda mungkin menemukan yang berikut di log ini.
-
Melihat di
Waiting for static fleet capacity provisioning
dekat akhirchef-client.log
Ini menunjukkan bahwa waktu pembuatan cluster habis saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.
-
Melihat
OnNodeConfigured
atau skrip nodeOnNodeStart
kepala belum selesai di akhircfn-init.log
Ini menunjukkan bahwa skrip
OnNodeConfigured
atauOnNodeStart
kustom membutuhkan waktu lama untuk dijalankan dan menyebabkan kesalahan batas waktu. Periksa skrip kustom Anda untuk masalah yang mungkin menyebabkannya berjalan untuk waktu yang lama. Jika skrip kustom Anda memerlukan waktu yang lama untuk dijalankan, pertimbangkan untuk mengubah batas batas waktu dengan menambahkanDevSettings
bagian ke file konfigurasi cluster Anda, seperti yang ditunjukkan pada contoh berikut:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
Tidak dapat menemukan log, atau node kepala tidak berhasil dibuat
Ada kemungkinan bahwa node kepala tidak berhasil dibuat dan log tidak dapat ditemukan. Di CloudFormation konsol, lihat detail tumpukan cluster untuk memeriksa detail kegagalan tambahan.
-
failureCode
HeadNodeBootstrapFailure
dengan failureReason
Gagal mem-bootstrap simpul kepala.
-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log
file/var/log/cfn-init.log
dan.
failureCode
adalah ResourceCreationFailure
-
Mengapa gagal?
Penciptaan beberapa sumber daya gagal selama proses pembuatan cluster. Kegagalan dapat terjadi karena berbagai alasan. Misalnya, kegagalan pembuatan sumber daya dapat disebabkan oleh masalah kapasitas atau IAM kebijakan yang salah konfigurasi.
-
Bagaimana cara mengatasinya?
Di CloudFormation konsol, lihat tumpukan cluster untuk memeriksa detail kegagalan pembuatan sumber daya tambahan.
failureCode
adalah ClusterCreationFailure
-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Di CloudFormation konsol, lihat tumpukan cluster dan periksa
Status Reason
HeadNodeWaitCondition
untuk menemukan rincian kegagalan tambahan.Periksa
/var/log/chef-client.log
file/var/log/cfn-init.log
dan.
Melihat WaitCondition timed out...
di CloudFormation tumpukan
Untuk informasi selengkapnya, lihat failureCodeHeadNodeBootstrapFailuredengan waktu pembuatan failureReason Cluster habis..
Melihat Resource creation cancelled
di CloudFormation tumpukan
Untuk informasi selengkapnya, lihat failureCodeadalah ResourceCreationFailure.
Melihat Failed to run cfn-init...
atau kesalahan lain di AWS CloudFormation tumpukan
Periksa /var/log/cfn-init.log
dan /var/log/chef-client.log
untuk rincian kegagalan tambahan.
Melihat chef-client.log
berakhir dengan INFO: Waiting for static fleet capacity provisioning
Ini terkait dengan batas waktu pembuatan cluster saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.
Melihat Failed to run preinstall or postinstall in cfn-init.log
Anda memiliki OnNodeStart
skrip OnNodeConfigured
atau di HeadNode
bagian konfigurasi cluster. Script tidak berfungsi dengan benar. Periksa /var/log/cfn-init.log
file untuk detail kesalahan skrip kustom.
Melihat This AMI was created with xxx, but is trying to be used with xxx...
di CloudFormation tumpukan
Untuk informasi selengkapnya, lihat failureCodeadalah AmiVersionMismatch.
Melihat This AMI was not baked by AWS ParallelCluster...
di CloudFormation tumpukan
Untuk informasi selengkapnya, lihat failureCodeadalah InvalidAmi.
Melihat pcluster create-cluster
perintah gagal dijalankan secara lokal
Periksa ~/.parallelcluster/pcluster-cli.log
di sistem file lokal Anda untuk rincian kegagalan.
Dukungan tambahan
Ikuti panduan pemecahan masalah di. Memecahkan masalah penerapan klaster
Periksa untuk melihat apakah skenario Anda tercakup dalam Masalah GitHub yang Diketahui