Saya mengonfigurasi reservasi kapasitas permintaan (ODCRs) atau Instans Cadangan zona - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Saya mengonfigurasi reservasi kapasitas permintaan (ODCRs) atau Instans Cadangan zona

ODCRsyang mencakup instance yang memiliki beberapa antarmuka jaringan, seperti P4d, P4de, dan Trainium (Trn) AWS

Dalam file konfigurasi cluster, periksa apakah HeadNode ada di subnet publik dan node komputasi berada dalam subnet pribadi.

ODCRsditargetkan ODCRS

Melihat Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. meskipun saya sudah memiliki /opt/slurm/etc/pcluster/run_instances_overrides.json tempat dengan mengikuti instruksi yang diberikan di Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR

Jika Anda menggunakan AWS ParallelCluster versi 3.1.1 hingga 3.2.1 dengan targetODCRs, dan Anda juga menggunakan JSONfile penggantian instance run, mungkin saja file tersebut tidak diformat dengan benar. JSON Anda bisa melihat kesalahan diclustermgtd.log, seperti berikut ini:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Validasi bahwa format JSON file sudah benar dengan menjalankan yang berikut:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Melihat Found RunInstances parameters override.clustermgtd.log kapan pembuatan klaster gagal, atau slurm_resume.log saat menjalankan pekerjaan gagal

Jika Anda menggunakan JSONfile penggantian instance run, periksa apakah Anda menyetel nama antrian dan nama sumber daya komputasi dalam file dengan benar. /opt/slurm/etc/pcluster/run_instances_overrides.json

Melihat An error occurred (InsufficientInstanceCapacity)slurm_resume.log ketika saya gagal menjalankan pekerjaan, atau clustermgtd.log ketika saya gagal membuat cluster

Menggunakan PG- ODCR (Grup PenempatanODCR)

Saat membuat ODCR dengan grup penempatan terkait, nama grup penempatan yang sama harus digunakan dalam file konfigurasi. Tetapkan nama grup penempatan yang sesuai dalam konfigurasi cluster.

Menggunakan Instans Cadangan Zonal

Jika Anda menggunakan Instans Cadangan zona denganPlacementGroup/Enabledto true dalam konfigurasi cluster, Anda mungkin melihat kesalahan, seperti berikut ini:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Anda mungkin melihat ini karena Instans Cadangan zona tidak ditempatkan di UC (atau tulang belakang) yang sama, yang dapat menyebabkan kesalahan kapasitas (ICEs) tidak mencukupi saat menggunakan grup penempatan. Anda dapat memeriksa kasus ini dengan menonaktifkan pengaturan PlacementGroup Grup dalam konfigurasi cluster untuk menentukan apakah cluster dapat mengalokasikan instance.