Bagian Scheduling - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bagian Scheduling

(Wajib) Mendefinisikan penjadwal pekerjaan yang digunakan dalam klaster dan contoh komputasi yang dikelola oleh penjadwal pekerjaan. Anda juga dapat menggunakan Slurm atau AWS Batch penjadwal. Masing-masing mendukung serangkaian pengaturan dan properti yang berbeda.

Scheduling: Scheduler: slurm ScalingStrategy: string SlurmSettings: MungeKeySecretArn: string ScaledownIdletime: integer QueueUpdateStrategy: string EnableMemoryBasedScheduling: boolean CustomSlurmSettings: [dict] CustomSlurmSettingsIncludeFile: string Database: Uri: string UserName: string PasswordSecretArn: string DatabaseName: string ExternalSlurmdbd: boolean Host: string Port: integer Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean SlurmQueues: - Name: string ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string CapacityType: string AllocationStrategy: string JobExclusiveAllocation: boolean CustomSlurmSettings: dict Tags: - Key: string Value: string HealthChecks: Gpu: Enabled: boolean Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string Iam: InstanceProfile: string InstanceRole: string S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string Image: CustomAmi: string
Scheduling: Scheduler: awsbatch AwsBatchQueues: - Name: string CapacityType: string Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float

Schedulingproperti

Scheduler(Diperlukan,String)

Menentukan jenis scheduler yang digunakan. Nilai yang didukung adalah slurm dan awsbatch.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

catatan

awsbatchhanya mendukung sistem alinux2 operasi dan x86_64 platform.

ScalingStrategy(Opsional,String)

Memungkinkan Anda memilih seberapa dinamis Slurm skala node naik. Nilai yang didukung adalahall-or-nothing, greedy-all-or-nothing dan best-effort Nilai defaultnya adalahall-or-nothing.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

Strategi penskalaan hanya berlaku untuk node yang akan dilanjutkan oleh Slurm, bukan untuk node yang akhirnya sudah berjalan.

  • all-or-nothingStrategi ini secara ketat mengikuti all-or-nothing-approach, yang bertujuan menghindari instance idle di akhir proses penskalaan. Ini beroperasi atas all-or-nothing dasar, yang berarti dapat ditingkatkan sepenuhnya atau tidak sama sekali. Ketahuilah bahwa mungkin ada biaya tambahan karena instans yang diluncurkan sementara, ketika pekerjaan membutuhkan lebih dari 500 node atau menjangkau beberapa sumber daya komputasi. Strategi ini memiliki throughput terendah di antara tiga Strategi Penskalaan yang mungkin. Waktu penskalaan tergantung pada jumlah pekerjaan yang diajukan per Slurm melanjutkan eksekusi program. Selain itu, Anda tidak dapat menskalakan jauh melampaui batas akun RunInstances sumber daya default per eksekusi, yaitu 1000 instance secara default. Rincian lebih lanjut dapat ditemukan di dokumentasi EC2APIpelambatan Amazon

  • greedy-all-or-nothing Mirip dengan all-or-nothing strategi, ini bertujuan untuk menghindari instance idle pasca-penskalaan. Strategi ini memungkinkan penskalaan berlebih sementara selama proses penskalaan untuk mencapai throughput yang lebih tinggi daripada all-or-nothing pendekatan tetapi juga dilengkapi dengan batas penskalaan yang sama yaitu 1000 instance sesuai batas akun sumber daya. RunInstances

  • best-effort Strategi ini memprioritaskan throughput yang tinggi, bahkan jika itu berarti bahwa beberapa contoh mungkin menganggur di akhir proses penskalaan. Ini mencoba untuk mengalokasikan node sebanyak yang diminta oleh pekerjaan, tetapi ada kemungkinan tidak memenuhi seluruh permintaan. Berbeda dengan strategi lainnya, pendekatan upaya terbaik dapat mengakumulasi lebih banyak contoh daripada RunInstances batas standar, dengan biaya memiliki sumber daya yang menganggur di sepanjang eksekusi proses penskalaan ganda.

Setiap strategi dirancang untuk memenuhi kebutuhan penskalaan yang berbeda, memungkinkan Anda memilih salah satu yang memenuhi persyaratan dan kendala spesifik Anda.

AwsBatchQueues

(Opsional) Pengaturan AWS Batch antrian. Hanya satu antrian yang didukung. Jika Schedulerdiatur keawsbatch, bagian ini diperlukan. Untuk informasi selengkapnya tentang awsbatch penjadwal, lihat penyiapan jaringan danMenggunakan AWS Batch (awsbatch) scheduler dengan AWS ParallelCluster.

AwsBatchQueues: - Name: string CapacityType: string Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AwsBatchQueuesproperti

Name(Diperlukan,String)

Nama AWS Batch antrian.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

CapacityType(Opsional,String)

Jenis sumber daya komputasi yang digunakan AWS Batch antrian. Nilai yang didukung adalahONDEMAND, SPOT atauCAPACITY_BLOCK. Nilai default-nya adalah ONDEMAND.

catatan

Jika disetel CapacityType keSPOT, akun Anda harus berisi peran AWSServiceRoleForEC2Spot terkait layanan. Anda dapat membuat peran ini menggunakan AWS CLI perintah berikut.

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Untuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

Networking

(Wajib) Mendefinisikan konfigurasi jaringan untuk AWS Batch antrian.

Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string
Networkingproperti
SubnetIds(Diperlukan,[String])

Menentukan ID dari subnet yang ada untuk menyediakan AWS Batch antrian di. Saat ini hanya satu subnet yang didukung.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

AssignPublicIp(Opsional,String)

Membuat atau menetapkan alamat IP publik ke node dalam AWS Batch antrian. Nilai yang didukung adalah true dan false. Default tergantung pada subnet yang Anda tentukan.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

SecurityGroups(Opsional,[String])

Daftar grup keamanan yang digunakan AWS Batch antrian. Jika Anda tidak menentukan grup keamanan, AWS ParallelCluster buat grup keamanan baru.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalSecurityGroups(Opsional,[String])

Daftar grup keamanan yang digunakan AWS Batch antrian.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

ComputeResources

(Wajib) Mendefinisikan ComputeResources konfigurasi untuk AWS Batch antrian.

ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float
ComputeResourcesproperti
Name(Diperlukan,String)

Nama lingkungan komputasi AWS Batch antrian.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

InstanceTypes(Diperlukan,[String])

Array lingkungan AWS Batch komputasi dari tipe instance. Semua tipe instance harus menggunakan x86_64 arsitektur.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MinvCpus(Opsional,Integer)

Jumlah minimum VCPUs yang dapat digunakan oleh lingkungan AWS Batch komputasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

DesiredVcpus(Opsional,Integer)

Jumlah yang diinginkan dari VCPUs dalam lingkungan AWS Batch komputasi. AWS Batch menyesuaikan nilai ini antara MinvCpus dan MaxvCpus berdasarkan permintaan dalam antrian pekerjaan.

Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.

MaxvCpus(Opsional,Integer)

Jumlah maksimum VCPUs untuk lingkungan AWS Batch komputasi. Anda tidak dapat mengatur ini ke nilai yang lebih rendah dariDesiredVcpus.

Kebijakan pembaruan: Pengaturan ini tidak dapat dikurangi selama pembaruan.

SpotBidPercentage(Opsional,Float)

Persentase maksimum harga On-Demand untuk jenis instans yang dapat dicapai oleh harga Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai defaultnya adalah 100 (100%). Rentang yang didukung adalah 1 -100.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

SlurmQueues

(Opsional) Pengaturan untuk Slurm antrian. Jika Schedulerdiatur keslurm, bagian ini diperlukan.

SlurmQueues: - Name: string ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string CapacityType: string AllocationStrategy: string JobExclusiveAllocation: boolean CustomSlurmSettings: dict Tags: - Key: string Value: string HealthChecks: Gpu: Enabled: boolean Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string Iam: InstanceProfile: string InstanceRole: string S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string Image: CustomAmi: string

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

SlurmQueuesproperti

Name(Diperlukan,String)

Nama dari Slurm antrian.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

CapacityReservationTarget
catatan

CapacityReservationTargetditambahkan dengan AWS ParallelCluster versi 3.3.0.

CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string

Menentukan reservasi kapasitas Sesuai Permintaan untuk sumber daya komputasi antrian.

CapacityReservationId(Opsional,String)

ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. ID dapat merujuk ke ODCRatau Blok Kapasitas untuk ML.

Reservasi harus menggunakan platform yang sama dengan yang digunakan instans. Misalnya, jika instans Anda berjalanrhel8, reservasi kapasitas Anda harus berjalan di platform Red Hat Enterprise Linux. Untuk informasi selengkapnya, lihat Platform yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux.

catatan

Jika Anda menyertakan Instancesdalam konfigurasi cluster, Anda harus mengecualikan CapacityReservationId pengaturan tingkat antrian ini dari konfigurasi.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityReservationResourceGroupArn(Opsional,String)

Amazon Resource Name (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas terkait layanan untuk sumber daya komputasi antrian. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari kelompok sumber daya berdasarkan kondisi berikut:

Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instans yang dicadangkan di Availability Zone di semua sumber daya komputasi dan Availability Zone antrean. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.

Untuk informasi selengkapnya tentang beberapa persyaratan konfigurasi subnet, lihat Networking/SubnetIds.

catatan

Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityType(Opsional,String)

Jenis sumber daya komputasi yang Slurm antrian menggunakan. Nilai yang didukung adalahONDEMAND, SPOT atauCAPACITY_BLOCK. Nilai default-nya adalah ONDEMAND.

catatan

Jika Anda menyetel CapacityType keSPOT, akun Anda harus memiliki peran AWSServiceRoleForEC2Spot terkait layanan. Anda dapat membuat peran ini dengan menggunakan AWS CLI perintah berikut.

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Untuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

AllocationStrategy(Opsional,String)

Tentukan strategi alokasi untuk semua sumber daya komputasi yang ditentukan dalam. Instances

Nilai yang valid: lowest-price | capacity-optimized | price-capacity-optimized

Default: lowest-price

lowest-price
  • Jika Anda menggunakannyaCapacityType = ONDEMAND, Amazon EC2 Fleet menggunakan harga untuk menentukan pesanan dan meluncurkan instans harga terendah terlebih dahulu.

  • Jika Anda menggunakannyaCapacityType = SPOT, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Jika kolam kehabisan kapasitas sebelum memenuhi kapasitas yang Anda butuhkan, Amazon EC2 Fleet memenuhi permintaan Anda dengan meluncurkan instans untuk Anda. Secara khusus, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Amazon EC2 Fleet mungkin meluncurkan Instans Spot dari beberapa kumpulan yang berbeda.

  • Jika Anda mengaturCapacityType = CAPACITY_BLOCK, tidak ada strategi alokasi, sehingga AllocationStrategy parameter tidak dapat dikonfigurasi.

capacity-optimized
  • Jika Anda mengaturCapacityType = ONDEMAND, capacity-optimized tidak tersedia.

  • Jika disetelCapacityType = SPOT, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot dengan kapasitas optimal untuk jumlah instans yang akan diluncurkan.

price-capacity-optimized
  • Jika Anda mengaturCapacityType = ONDEMAND, capacity-optimized tidak tersedia.

  • Jika Anda menyetelCapacityType = SPOT, Amazon EC2 Fleet mengidentifikasi kumpulan dengan ketersediaan kapasitas tertinggi untuk jumlah instans yang diluncurkan. Hal ini berarti bahwa kami akan meminta Instans Spot dari kolam yang kami yakini memiliki peluang interupsi terendah dalam waktu dekat. Amazon EC2 Fleet kemudian meminta Instans Spot dari harga terendah dari kumpulan ini.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

AllocationStrategydidukung mulai AWS ParallelCluster versi 3.3.0.

JobExclusiveAllocation(Opsional,String)

Jika diatur ketrue, Slurm OverSubscribebendera partisi diatur keEXCLUSIVE. Ketika OverSubscribe =EXCLUSIVE, pekerjaan di partisi memiliki akses eksklusif ke semua node yang dialokasikan. Untuk informasi lebih lanjut, lihat EXCLUSIVEdi Slurm dokumentasi.

Nilai yang valid: true | false

Default: false

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

JobExclusiveAllocationdidukung mulai AWS ParallelCluster versi 3.7.0.

CustomSlurmSettings(Opsional,Dict)

Mendefinisikan kustom Slurm pengaturan konfigurasi partisi (antrian).

Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk antrian (partisi).

Setiap pasangan kunci-nilai yang terpisahParam1: Value1, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi partisi dalam formatParam1=Value1.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettings Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.

AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.

Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

Tags(Opsional, [String])

Daftar pasangan nilai kunci tag. ComputeResourcetag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau diSlurmQueues/. Tags

Key(Opsional,String)

Kunci tanda.

Value(Opsional,String)

Nilai tanda.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HealthChecks(Opsional)

Tentukan pemeriksaan kesehatan node komputasi pada semua sumber daya komputasi dalam antrian.

Gpu(Opsional)

Tentukan pemeriksaan GPU kesehatan pada semua sumber daya komputasi dalam antrian.

catatan

AWS ParallelCluster tidak mendukungHealthChecks/Gpudi node yang menggunakan sistem alinux2 ARM operasi. Platform ini tidak mendukung GPUManajer Pusat NVIDIA Data (DCGM).

Enabled(Opsional,Boolean)

Apakah AWS ParallelCluster melakukan pemeriksaan GPU kesehatan pada node komputasi. Default-nya adalah false.

Gpuperilaku pemeriksaan kesehatan
  • JikaGpu/Enableddisetel ketrue, AWS ParallelCluster lakukan pemeriksaan GPU kesehatan pada sumber daya komputasi dalam antrian.

  • Pemeriksaan Gpu kesehatan melakukan pemeriksaan GPU kesehatan pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan degradasi. GPU

  • Jika node komputasi gagal dalam pemeriksaan Gpu kesehatan, status node komputasi berubah menjadi. DRAIN Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis.

  • Durasi pemeriksaan Gpu kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaan Gpu kesehatan (setara dengan jumlah GPU target pekerjaan). Misalnya dengan 8GPUs, durasi tipikal kurang dari 3 menit.

  • Jika pemeriksaan Gpu kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memilikiGPU, atau, jika sebuah instance memilikiGPU, tetapi bukan NVIDIAGPU, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs didukung.

  • Pemeriksaan Gpu kesehatan menggunakan dcgmi alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:

    Ketika pemeriksaan Gpu kesehatan dimulai di simpul:

    1. Ini mendeteksi apakah nvidia-dcgm dan nvidia-fabricmanager layanan berjalan.

    2. Jika layanan ini tidak berjalan, pemeriksaan Gpu kesehatan memulainya.

    3. Ini mendeteksi apakah mode persistensi diaktifkan.

    4. Jika mode persistensi tidak diaktifkan, pemeriksaan Gpu kesehatan mengaktifkannya.

    Pada akhir pemeriksaan kesehatan, pemeriksaan Gpu kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal.

  • Jika pekerjaan ditetapkan ke satu set node tertentuGPUs, pemeriksaan Gpu kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaan Gpu kesehatan berjalan pada semua GPUs di node.

  • Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan Gpu kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan nodeGPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini.

  • Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam /var/log/parallelcluster/slurm_health_check.log file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:

    • Detail tentang tindakan yang dijalankan oleh pemeriksaan Gpu kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi.

    • GPUPengenal, ID serial, dan file. UUID

    • Output pemeriksaan kesehatan.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

HealthChecksdidukung mulai AWS ParallelCluster versi 3.6.0.

Networking

(Wajib) Mendefinisikan konfigurasi jaringan untuk Slurm antrian.

Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Networkingproperti
SubnetIds(Diperlukan,[String])

Subnet yang ada yang Anda berikan IDs Slurm antrian di.

Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/InstanceType, Anda hanya dapat menentukan satu subnet.

Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/Instances, Anda dapat menentukan subnet tunggal atau beberapa subnet.

Jika Anda menggunakan beberapa subnet, semua subnet yang ditentukan untuk antrian harus samaVPC, dengan setiap subnet di Availability Zone (AZ) terpisah.

Misalnya, Anda mendefinisikan subnet-1 dan subnet-2 untuk antrian Anda.

subnet-1dan tidak subnet-2 bisa keduanya berada di AZ-1.

subnet-1bisa di AZ-1 dan subnet-2 bisa di AZ-2.

Jika Anda mengonfigurasi hanya satu jenis instans dan ingin menggunakan beberapa subnet, tentukan jenis instans Anda sebagai Instances pengganti. InstanceType

Misalnya, definisikanComputeResources/Instances/InstanceType= instance.type bukannyaComputeResources/InstanceType=instance.type.

catatan

Adaptor Kain Elastis (EFA) tidak didukung di zona ketersediaan yang berbeda.

Penggunaan beberapa Availability Zone dapat menyebabkan peningkatan latensi jaringan penyimpanan dan menambahkan biaya transfer data antar-AZ. Misalnya, ini dapat terjadi ketika sebuah instance mengakses penyimpanan file yang terletak di AZ yang berbeda. Untuk informasi selengkapnya, lihat Transfer Data dalam hal yang sama Wilayah AWS.

Pembaruan cluster untuk mengubah dari penggunaan subnet tunggal ke beberapa subnet:
  • Misalkan definisi subnet dari sebuah cluster didefinisikan dengan subnet tunggal dan AWS ParallelCluster dikelola FSx untuk sistem file Lustre. Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan cluster, Anda harus terlebih dahulu mengubah sistem file terkelola ke sistem file eksternal. Untuk informasi selengkapnya, lihat Ubah penyimpanan AWS ParallelCluster terkelola ke penyimpanan eksternal.

  • Misalkan definisi subnet dari sebuah cluster didefinisikan dengan subnet tunggal dan sistem EFS file Amazon eksternal jika target EFS mount tidak ada untuk semua subnet untuk beberapa subnet yang ditentukan untuk ditambahkan. AZs Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan kluster atau membuat cluster, Anda harus terlebih dahulu membuat semua target pemasangan untuk semua subnet yang ditentukan. AZs

Availability Zone dan reservasi kapasitas cluster didefinisikan dalam CapacityReservationResourceGroupArn:
  • Anda tidak dapat membuat klaster jika tidak ada tumpang tindih antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian.

  • Anda dapat membuat klaster jika ada tumpang tindih sebagian antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian. AWS ParallelCluster mengirim pesan peringatan tentang tumpang tindih sebagian untuk kasus ini.

  • Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.

catatan

Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.

Awas

Peringatan ini berlaku untuk semua versi 3.xy sebelum AWS ParallelCluster versi 3.3.1. AWS ParallelCluster versi 3.3.1 tidak terpengaruh jika parameter ini diubah.

Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.1:

Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Sebelum Anda melanjutkan, pastikan Anda mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSxuntuk Lustre.

Jika nilai subnet baru ditambahkan, Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Jika nilai subnet dihapus, Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

AssignPublicIp(Opsional,String)

Membuat atau menetapkan alamat IP publik ke node di Slurm antrian. Nilai yang didukung adalah true dan false. Subnet yang Anda tentukan menentukan nilai default. Subnet dengan IPs default publik untuk menetapkan alamat IP publik.

Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus mengatur HeadNode/Networking/ElasticIptrueuntuk menyediakan akses publik. AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk kasus ini, kami menyarankan Anda menggunakan NATgateway untuk menyediakan akses publik ke node komputasi cluster. Dalam hal ini, atur AssignPublicIp kefalse. Untuk informasi selengkapnya tentang alamat IP, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

SecurityGroups(Opsional,[String])

Daftar kelompok keamanan yang akan digunakan untuk Slurm antrian. Jika tidak ada grup keamanan yang ditentukan, AWS ParallelCluster buat grup keamanan untuk Anda.

Verifikasi bahwa grup keamanan dikonfigurasi dengan benar untuk SharedStoragesistem Anda.

Awas

Peringatan ini berlaku untuk semua 3.x.y AWS ParallelCluster versi sebelum versi 3.3.0. AWS ParallelCluster versi 3.3.0 tidak terpengaruh jika parameter ini diubah.

Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.0:

Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Pastikan untuk mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSxuntuk Lustre.

Awas

Jika Anda mengaktifkan EFA untuk instans komputasi, pastikan instans yang EFA diaktifkan adalah anggota grup keamanan yang mengizinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalSecurityGroups(Opsional,[String])

Daftar grup keamanan tambahan yang akan digunakan untuk Slurm antrian.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

PlacementGroup(Opsional)

Menentukan pengaturan grup penempatan untuk Slurm antrian.

PlacementGroup: Enabled: boolean Id: string Name: string

Kebijakan pembaruan: Semua node komputasi harus dihentikan untuk penghapusan grup penempatan terkelola. Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Enabled(Opsional,Boolean)

Menunjukkan apakah grup penempatan digunakan untuk Slurm antrian. Default-nya adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Id(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Name(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan
Proxy(Opsional)

Menentukan pengaturan proxy untuk Slurm antrian.

Proxy: HttpProxyAddress: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HttpProxyAddress(Opsional,String)

Mendefinisikan server HTTP atau HTTPS proxy untuk Slurm antrian. Biasanya, ituhttps://x.x.x.x:8080.

Tidak ada nilai default.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Image

(Opsional) Menentukan gambar yang akan digunakan untuk Slurm antrian. Untuk menggunakan hal yang sama AMI untuk semua node, gunakan CustomAmipengaturan di Imagebagian.

Image: CustomAmi: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

ImageProperti
CustomAmi(Opsional,String)

AMIYang digunakan untuk Slurm antrian bukan defaultAMIs. Anda dapat menggunakan pcluster CLIperintah untuk melihat daftar defaultAMIs.

catatan

AMIHarus didasarkan pada sistem operasi yang sama yang digunakan oleh node kepala.

pcluster list-official-images

Jika kustom AMI memerlukan izin tambahan untuk peluncurannya, Anda harus menambahkan izin ini ke kebijakan node kepala.

Misalnya, jika kustom AMI memiliki snapshot terenkripsi yang terkait dengannya, kebijakan tambahan berikut diperlukan dalam kebijakan node kepala.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:<AWS_REGION>:<AWS_ACCOUNT_ID>:key/<AWS_KMS_KEY_ID>" ] } ] }

Untuk memecahkan masalah peringatan AMI validasi kustom, lihat. Memecahkan masalah kustom AMI

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

ComputeResources

(Wajib) Mendefinisikan ComputeResources konfigurasi untuk Slurm antrian.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

ComputeResourcesproperti
Name(Diperlukan,String)

Nama dari Slurm lingkungan komputasi antrian. Nama dapat memiliki hingga 25 karakter.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

InstanceType(Diperlukan,String)

Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama. Contoh dapat menggunakan arm64 arsitektur x86_64 atau.

Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instance. Jika keduanya didefinisikan, AWS ParallelCluster gagal.

Ketika Anda mendefinisikanInstanceType, Anda tidak dapat mendefinisikan beberapa subnet. Jika Anda mengonfigurasi hanya satu jenis instance dan ingin menggunakan beberapa subnet, tentukan tipe instans Anda Instances daripada diInstanceType. Untuk informasi lebih lanjut, lihat Networking/SubnetIds.

Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus meluncurkan instance komputasi di subnet pribadi seperti yang dijelaskan dalam. AWS ParallelCluster menggunakan dua subnet AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk informasi selengkapnya, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

Instances(Diperlukan)

Menentukan daftar jenis contoh untuk sumber daya komputasi. Untuk menentukan strategi alokasi untuk daftar jenis instance, lihat AllocationStrategy.

Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instances. Jika keduanya didefinisikan, AWS ParallelCluster gagal.

Untuk informasi selengkapnya, lihat Beberapa alokasi tipe instans dengan Slurm.

Instances: - InstanceType: string
catatan

Dimulai dengan AWS ParallelCluster versi 3.7.0, EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6.x, tidak EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

InstanceType(Diperlukan,String)

Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama, baik x86_64 atauarm64.

Jenis instance yang tercantum di Instancesharus memiliki:

Jenis instance yang tercantum dalam Instancesdapat memiliki:

Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus meluncurkan instance komputasi di subnet pribadi seperti yang dijelaskan dalam. AWS ParallelCluster menggunakan dua subnet AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk informasi selengkapnya, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

catatan

Instancesdidukung dimulai dengan AWS ParallelCluster versi 3.3.0.

MinCount(Opsional,Integer)

Jumlah minimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 0.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MaxCount(Opsional,Integer)

Jumlah maksimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 10.

Saat menggunakanCapacityType = CAPACITY_BLOCK, MaxCount harus sama dengan MinCount dan lebih besar dari 0, karena semua instance bagian dari reservasi Blok Kapasitas dikelola sebagai node statis.

Pada waktu pembuatan cluster, head node menunggu semua node statis siap sebelum menandakan keberhasilan pembuatan cluster. Namun, saat menggunakanCapacityType = CAPACITY_BLOCK, bagian node dari sumber daya komputasi yang terkait dengan Blok Kapasitas tidak akan dipertimbangkan untuk pemeriksaan ini. Cluster akan dibuat bahkan jika tidak semua Blok Kapasitas yang dikonfigurasi aktif.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

DynamicNodePriority(Opsional,Integer)

Prioritas node dinamis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter Weightkonfigurasi node untuk node dinamis sumber daya komputasi. Nilai default-nya adalah 1000.

Slurm memprioritaskan node dengan Weight nilai terendah terlebih dahulu.

Awas

Penggunaan banyak Weight nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.

Dalam AWS ParallelCluster versi yang lebih awal dari versi 3.7.0, node statis dan dinamis diberi bobot default yang sama yaitu. 1 Dalam hal ini, Slurm mungkin memprioritaskan node dinamis idle daripada node statis idle karena skema penamaan untuk node statis dan dinamis. Ketika semua yang lain sama, Slurm menjadwalkan node menurut abjad dengan nama.

catatan

DynamicNodePriorityditambahkan dalam AWS ParallelCluster versi 3.7.0.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

StaticNodePriority(Opsional,Integer)

Prioritas node statis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter Weightkonfigurasi node untuk sumber daya komputasi node statis. Nilai default-nya adalah 1.

Slurm memprioritaskan node dengan Weight nilai terendah terlebih dahulu.

Awas

Penggunaan banyak Weight nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.

catatan

StaticNodePriorityditambahkan dalam AWS ParallelCluster versi 3.7.0.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

SpotPrice(Opsional,Float)

Harga maksimum yang dibayarkan untuk Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai default adalah harga On-Demand.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

DisableSimultaneousMultithreading(Opsional,Boolean)

Jikatrue, multithreading pada node di Slurm antrian dinonaktifkan. Nilai default-nya adalah false.

Tidak semua tipe instance dapat menonaktifkan multithreading. Untuk daftar jenis instance yang mendukung penonaktifan multithreading, lihat CPUinti dan utas untuk setiap CPU inti per jenis instans di Panduan Pengguna Amazon. EC2

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

SchedulableMemory(Opsional,Integer)

Jumlah memori di MiB yang dikonfigurasi di Slurm parameter RealMemory untuk node komputasi sumber daya komputasi. Nilai ini adalah batas atas untuk memori node yang tersedia untuk pekerjaan saat SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Nilai defaultnya adalah 95 persen dari memori yang terdaftar di Jenis EC2 Instance Amazon dan dikembalikan oleh Amazon EC2 API DescribeInstanceTypes. Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB.

Nilai yang didukung: 1-EC2Memory

EC2Memoryadalah memori (dalam MiB) yang terdaftar di Jenis EC2 Instance Amazon dan dikembalikan oleh Amazon. EC2 API DescribeInstanceTypes Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB.

Opsi ini paling relevan ketika SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Untuk informasi selengkapnya, lihat Slurmpenjadwalan berbasis memori.

catatan

SchedulableMemorydidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

Dimulai dengan versi 3.2.0, secara default, AWS ParallelCluster mengkonfigurasi RealMemory untuk Slurm menghitung node hingga 95 persen dari memori yang dikembalikan oleh Amazon EC2 APIDescribeInstanceTypes. Konfigurasi ini tidak tergantung pada nilaiEnableMemoryBasedScheduling.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HealthChecks(Opsional)

Tentukan pemeriksaan kesehatan pada sumber daya komputasi.

Gpu(Opsional)

Tentukan pemeriksaan GPU kesehatan pada sumber daya komputasi.

Enabled(Opsional,Boolean)

Apakah AWS ParallelCluster melakukan pemeriksaan GPU kesehatan pada menghitung sumber daya dalam antrian. Default-nya adalah false.

catatan

AWS ParallelCluster tidak mendukungHealthChecks/Gpudi node yang menggunakan sistem alinux2 ARM operasi. Platform ini tidak mendukung GPUManajer Pusat NVIDIA Data (DCGM).

Gpuperilaku pemeriksaan kesehatan
  • JikaGpu/Enableddiatur ketrue, AWS ParallelCluster lakukan pemeriksaan kesehatan GPU kesehatan pada sumber daya komputasi.

  • Pemeriksaan Gpu kesehatan melakukan pemeriksaan kesehatan pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan degradasi. GPU

  • Jika node komputasi gagal dalam pemeriksaan Gpu kesehatan, status node komputasi berubah menjadi. DRAIN Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis.

  • Durasi pemeriksaan Gpu kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaan Gpu kesehatan (setara dengan jumlah GPU target pekerjaan). Misalnya dengan 8GPUs, durasi tipikal kurang dari 3 menit.

  • Jika pemeriksaan Gpu kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memilikiGPU, atau, jika sebuah instance memilikiGPU, tetapi bukan NVIDIAGPU, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs didukung.

  • Pemeriksaan Gpu kesehatan menggunakan dcgmi alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:

    Ketika pemeriksaan Gpu kesehatan dimulai di simpul:

    1. Ini mendeteksi apakah nvidia-dcgm dan nvidia-fabricmanager layanan berjalan.

    2. Jika layanan ini tidak berjalan, pemeriksaan Gpu kesehatan memulainya.

    3. Ini mendeteksi apakah mode persistensi diaktifkan.

    4. Jika mode persistensi tidak diaktifkan, pemeriksaan Gpu kesehatan mengaktifkannya.

    Pada akhir pemeriksaan kesehatan, pemeriksaan Gpu kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal.

  • Jika pekerjaan ditetapkan ke satu set node tertentuGPUs, pemeriksaan Gpu kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaan Gpu kesehatan berjalan pada semua GPUs di node.

  • Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan Gpu kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan nodeGPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini.

  • Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam /var/log/parallelcluster/slurm_health_check.log file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:

    • Detail tentang tindakan yang dijalankan oleh pemeriksaan Gpu kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi.

    • GPUPengenal, ID serial, dan file. UUID

    • Output pemeriksaan kesehatan.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

HealthChecksdidukung mulai AWS ParallelCluster versi 3.6.0.

Efa(Opsional)

Menentukan pengaturan Elastic Fabric Adapter (EFA) untuk node di Slurm antrian.

Efa: Enabled: boolean GdrSupport: boolean

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Enabled(Opsional,Boolean)

Menentukan bahwa Adaptor Kain Elastis (EFA) diaktifkan. Untuk melihat daftar EC2 instans Amazon yang mendukungEFA, lihat Jenis instans yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux. Untuk informasi selengkapnya, lihat Elastic Fabric Adapter. Kami menyarankan Anda menggunakan cluster SlurmQueues/Networking/PlacementGroupuntuk meminimalkan latensi antar instance.

Nilai default-nya adalah false.

catatan

Adaptor Kain Elastis (EFA) tidak didukung di zona ketersediaan yang berbeda. Untuk informasi lebih lanjut, lihat SubnetIds.

Awas

Jika Anda mendefinisikan grup keamanan khusus SecurityGroups, pastikan instans yang EFA diaktifkan adalah anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

GdrSupport(Opsional,Boolean)

(Opsional) Dimulai dengan AWS ParallelCluster versi 3.0.2, pengaturan ini tidak berpengaruh. Dukungan Elastic Fabric Adapter GPUDirect RDMA (EFA) untuk (akses memori langsung jarak jauh) selalu diaktifkan jika didukung oleh jenis instans untuk Slurm menghitung sumber daya dan sistem operasi.

catatan

AWS ParallelCluster versi 3.0.0 hingga 3.0.1: Support for diaktifkan untuk GPUDirect RDMA Slurm menghitung sumber daya. Support for GPUDirect RDMA didukung oleh jenis instance tertentu (p4d.24xlarge) pada sistem operasi tertentu (Osisalinux2,ubuntu1804, atauubuntu2004). Nilai default adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityReservationTarget
CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string

Menentukan reservasi kapasitas sesuai permintaan yang akan digunakan untuk sumber daya komputasi.

CapacityReservationId(Opsional,String)

ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. Id dapat merujuk ke ODCRatau Blok Kapasitas untuk ML.

Ketika parameter ini ditentukan pada tingkat sumber daya komputasi, InstanceType adalah opsional, itu akan secara otomatis diambil dari reservasi.

CapacityReservationResourceGroupArn(Opsional,String)

Menunjukkan Amazon Resource Name (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas yang ditautkan layanan untuk sumber daya komputasi. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari grup. Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instance yang terdaftar untuk sumber daya komputasi. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

CapacityReservationTargetditambahkan dengan AWS ParallelCluster versi 3.3.0.

Networking
Networking: PlacementGroup: Enabled: boolean Name: string

Kebijakan pembaruan: Semua node komputasi harus dihentikan untuk penghapusan grup penempatan terkelola. Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

PlacementGroup(Opsional)

Menentukan pengaturan grup penempatan untuk sumber daya komputasi.

Enabled(Opsional,Boolean)

Menunjukkan apakah grup penempatan digunakan untuk sumber daya komputasi.

  • Jika disetel ketrue, tanpa Name didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan terkelolanya sendiri, terlepas dari PlacementGrouppengaturan SlurmQueues/Networking/.

  • Jika disetel ketrue, dengan Name didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan bernama, terlepas dari PlacementGroup pengaturanSlurmQueues/Networking/.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Name(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada yang digunakan untuk sumber daya komputasi.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan
  • Jika keduanyaPlacementGroup/Enableddan Name tidak disetel, nilainya masing-masing default ke PlacementGrouppengaturan SlurmQueuesNetworking//.

  • ComputeResources/Networking/PlacementGroupditambahkan dengan AWS ParallelCluster versi 3.3.0.

CustomSlurmSettings(Opsional,Dict)

(Opsional) Mendefinisikan kustom Slurm pengaturan konfigurasi node (sumber daya komputasi).

Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk Slurm node (sumber daya komputasi).

Setiap pasangan kunci-nilai yang terpisahParam1: Value1, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi node dalam formatParam1=Value1.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettings Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.

AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.

Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

Tags(Opsional, [String])

Daftar pasangan nilai kunci tag. ComputeResourcetag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau SlurmQueues/. Tags

Key(Opsional,String)

Kunci tanda.

Value(Opsional,String)

Nilai tanda.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

ComputeSettings

(Wajib) Mendefinisikan ComputeSettings konfigurasi untuk Slurm antrian.

ComputeSettingsproperti

Menentukan sifat-sifat ComputeSettings dari node di Slurm antrian.

ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

LocalStorage(Opsional)

Menentukan sifat-sifat LocalStorage dari node di Slurm antrian.

LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

RootVolume(Opsional)

Menentukan rincian volume root node di Slurm antrian.

RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Size(Opsional,Integer)

Menentukan ukuran volume root dalam gibibytes (GiB) untuk node di Slurm antrian. Ukuran default berasal dari fileAMI. Menggunakan ukuran yang berbeda mengharuskan AMI dukungangrowroot.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Encrypted(Opsional,Boolean)

Jikatrue, volume root node di Slurm antrian dienkripsi. Nilai default-nya adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

VolumeType(Opsional,String)

Menentukan jenis EBS volume Amazon dari node di Slurm antrian. Nilai yang didukung adalah gp2gp3,io1,io2,sc1,st1, danstandard. Nilai default-nya adalah gp3.

Untuk informasi selengkapnya, lihat Jenis EBS volume Amazon di Panduan EC2 Pengguna Amazon.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Iops(Opsional,Boolean)

Mendefinisikan jumlah IOPS untukio1,io2, dan gp3 jenis volume.

Nilai default, nilai yang didukung, dan volume_iops volume_size rasio bervariasi menurut VolumeType danSize.

VolumeType = io1

Default Iops = 100

Nilai yang didukung Iops = 100—64000 †

volume_sizeRasio maksimum volume_iops = 50 IOPS per GiB. 5000 IOPS membutuhkan volume_size minimal 100 GiB.

VolumeType = io2

Default Iops = 100

Nilai yang didukung Iops = 100—64000 (256000 untuk io2 volume Block Express) †

SizeRasio maksimum Iops = 500 IOPS per GiB. 5000 IOPS membutuhkan Size minimal 10 GiB.

VolumeType = gp3

Default Iops = 3000

Nilai yang didukung Iops = 3000—16000 †

SizeRasio maksimum Iops = 500 IOPS per GiB untuk volume dengan IOPS lebih besar dari 3000.

† Maksimum IOPS dijamin hanya pada Instans yang dibangun di atas Sistem Nitro yang juga disediakan dengan lebih dari 32.000. IOPS Contoh lain dapat memiliki hingga 32.000IOPS. io1Volume sebelumnya mungkin tidak mencapai performa penuh kecuali Anda memodifikasi volume. io2 Volume Block Express mendukung volume_iops nilai hingga 256000 pada jenis R5b instans. Untuk informasi selengkapnya, lihat io2Blokir volume Express di Panduan EC2 Pengguna Amazon.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Throughput(Opsional,Integer)

Mendefinisikan throughput untuk tipe gp3 volume, dalam MIB/s. Pengaturan ini hanya valid jika VolumeType adagp3. Nilai default-nya adalah 125. Nilai yang didukung: 125—1000 MiB/s

Rasio Throughput to Iops bisa tidak lebih dari 0,25. Throughput maksimum 1000 MiB/s mengharuskan Iops pengaturan setidaknya 4000.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

EphemeralVolume(Opsional,Boolean)

Menentukan pengaturan untuk volume fana. Volume sementara dibuat dengan menggabungkan semua volume penyimpanan instance ke dalam volume logis tunggal yang diformat dengan sistem file. ext4 Default-nya adalah /scratch. Jika tipe instance tidak memiliki volume penyimpanan instance apa pun, tidak ada volume sementara yang dibuat. Untuk informasi selengkapnya, lihat Volume penyimpanan instans di Panduan EC2 Pengguna Amazon.

EphemeralVolume: MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

MountDir(Opsional,String)

Direktori mount untuk volume fana untuk setiap node di Slurm antrian.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CustomActions

(Opsional) Menentukan skrip kustom untuk berjalan pada node di Slurm antrian.

CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CustomActionsProperti
OnNodeStart(Opsional,String)

Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian sebelum tindakan bootstrap penerapan node dimulai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

OnNodeConfigured(Opsional,String)

Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian setelah semua tindakan bootstrap node selesai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

Sequenceditambahkan dimulai dengan AWS ParallelCluster versi 3.6.0. Saat Anda menentukanSequence, Anda dapat membuat daftar beberapa skrip untuk tindakan kustom. AWS ParallelCluster terus mendukung konfigurasi tindakan khusus dengan satu skrip, tanpa menyertakanSequence.

AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama.

Iam

(Opsional) Mendefinisikan IAM pengaturan opsional untuk Slurm antrian.

Iam: S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string InstanceProfile: string InstanceRole: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

IamProperti
InstanceProfile(Opsional,String)

Menentukan profil contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya InstanceProfile danInstanceRole. Formatnya adalah arn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}.

Jika ini ditentukan, AdditionalIamPolicies pengaturan S3Access dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

InstanceRole(Opsional,String)

Menentukan peran contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya InstanceProfile danInstanceRole. Formatnya adalah arn:${Partition}:iam::${Account}:role/${RoleName}.

Jika ini ditentukan, AdditionalIamPolicies pengaturan S3Access dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

S3Access(Opsional)

Menentukan ember untuk Slurm antrian. Ini digunakan untuk menghasilkan kebijakan guna memberikan akses yang ditentukan ke bucket di Slurm antrian.

Jika ini ditentukan, InstanceRole pengaturan InstanceProfile dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.

S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

BucketName(Diperlukan,String)

Nama ember.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

KeyName(Opsional,String)

Kunci untuk ember. Nilai default-nya adalah *.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

EnableWriteAccess(Opsional,Boolean)

Menunjukkan apakah akses tulis diaktifkan untuk bucket.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalIamPolicies(Opsional)

Menentukan daftar Nama Sumber Daya Amazon (ARNs) IAM kebijakan untuk AmazonEC2. Daftar ini dilampirkan ke peran root yang digunakan untuk Slurm antrian selain izin yang diperlukan oleh. AWS ParallelCluster

Nama IAM kebijakan dan ARN itu berbeda. Nama tidak bisa digunakan.

Jika ini ditentukan, InstanceRole pengaturan InstanceProfile dan tidak dapat ditentukan.

Kami menyarankan Anda menggunakan AdditionalIamPolicies karena AdditionalIamPolicies ditambahkan ke izin yang AWS ParallelCluster diperlukan, dan InstanceRole harus menyertakan semua izin yang diperlukan. Izin yang diperlukan sering berubah dari rilis ke rilis saat fitur ditambahkan.

Tidak ada nilai default.

AdditionalIamPolicies: - Policy: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Policy(Diperlukan,[String])

Daftar IAM kebijakan.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

SlurmSettings

(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.

SlurmSettings: ScaledownIdletime: integer QueueUpdateStrategy: string EnableMemoryBasedScheduling: boolean CustomSlurmSettings: [dict] CustomSlurmSettingsIncludeFile: string Database: Uri: string UserName: string PasswordSecretArn: string ExternalSlurmdbd: Host: string Port: integer Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean

SlurmSettingsProperti

ScaledownIdletime(Opsional,Integer)

Mendefinisikan jumlah waktu (dalam menit) bahwa tidak ada pekerjaan dan Slurm node berakhir.

Nilai default-nya adalah 10.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MungeKeySecretArn(Opsional,String)

Amazon Resource Name (ARN) dari AWS rahasia Secrets Manager plaintext yang berisi kunci munge yang dikodekan base64 untuk digunakan Slurm klaster. Kunci munge ini akan digunakan untuk mengautentikasi panggilan antara RPC Slurm perintah klien dan Slurm daemon bertindak sebagai server jarak jauh. Jika tidak MungeKeySecretArn disediakan, AWS ParallelCluster akan menghasilkan kunci munge acak untuk cluster.

catatan

MungeKeySecretArndidukung dimulai dengan AWS ParallelCluster versi 3.8.0.

Awas

Jika baru MungeKeySecretArn ditambahkan ke cluster yang ada, tidak ParallelCluster akan mengembalikan Kunci munge sebelumnya jika terjadi Rollback atau ketika kemudian menghapus. MungeKeySecretArn Sebagai gantinya, kunci munge acak baru akan dihasilkan.

Jika AWS ParallelCluster pengguna memiliki izin untuk DescribeSecretpada sumber rahasia tertentu, MungeKeySecretArn divalidasi. MungeKeySecretArn berlaku jika:

  • Rahasia yang ditentukan ada, dan

  • Rahasianya adalah plaintext dan berisi string berenkode base64 yang valid, dan

  • Kunci munge biner yang diterjemahkan memiliki ukuran antara 256 dan 8192 bit.

Jika IAM kebijakan pengguna pcluster tidak termasuk DescribeSecret, tidak MungeKeySecretArn divalidasi dan pesan peringatan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.

Saat Anda memperbarui MungeKeySecretArn, armada komputasi dan semua node login harus dihentikan.

Jika nilai rahasia dalam rahasia ARN dimodifikasi sementara ARN tetap sama, cluster tidak akan secara otomatis diperbarui dengan kunci munge baru. Untuk menggunakan kunci munge baru ARN rahasia, Anda harus menghentikan armada komputasi dan login node kemudian menjalankan perintah berikut dari node kepala.

sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh

Setelah menjalankan perintah, Anda dapat melanjutkan armada komputasi dan node login: node komputasi dan login yang baru disediakan akan secara otomatis mulai menggunakan kunci munge baru.

Untuk menghasilkan kunci munge kustom yang dikodekan base64, Anda dapat menggunakan utilitas mungekey yang didistribusikan dengan perangkat lunak munge dan kemudian menyandikannya menggunakan utilitas base64 yang umumnya tersedia di OS Anda. Atau, Anda juga menggunakan bash (harap atur parameter bs antara 32 dan 1024)

dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0

atau Python sebagai berikut:

import random import os import base64 # key length in bytes key_length=128 base64.b64encode(os.urandom(key_length)).decode("utf-8")

Kebijakan Pembaruan: NEW UPDATE POLICY WITH COMPUTE FLEET AND LOGIN NODES STOPPED (keliru tidak ditambahkan di 3.7.0).

QueueUpdateStrategy(Opsional,String)

Menentukan strategi penggantian untuk parameter SlurmQueues bagian yang memiliki kebijakan pembaruan berikut:

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategy harus disetel agar pengaturan ini diubah untuk pembaruan.

QueueUpdateStrategyNilai hanya digunakan ketika proses pembaruan cluster dimulai.

Nilai yang valid: COMPUTE_FLEET_STOP | DRAIN | TERMINATE

Nilai default: COMPUTE_FLEET_STOP

DRAIN

Node dalam antrian dengan nilai parameter yang diubah diatur ke. DRAINING Node dalam keadaan ini tidak menerima pekerjaan baru dan menjalankan pekerjaan terus selesai.

Setelah node menjadi idle (DRAINED), node diganti jika node statis, dan node dihentikan jika node dinamis. Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.

Waktu yang dibutuhkan strategi ini untuk mengganti semua node antrian dengan nilai parameter yang diubah tergantung pada beban kerja yang sedang berjalan.

COMPUTE_FLEET_STOP

Nilai default QueueUpdateStrategy parameter. Dengan pengaturan ini, memperbarui parameter di bawah SlurmQueues bagian mengharuskan Anda menghentikan armada komputasi sebelum melakukan pembaruan cluster:

$ pcluster update-compute-fleet --status STOP_REQUESTED
TERMINATE

Dalam antrian dengan nilai parameter yang diubah, pekerjaan yang berjalan dihentikan dan node segera dimatikan.

Node statis diganti dan node dinamis dihentikan.

Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.

Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.

catatan

QueueUpdateStrategydidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

EnableMemoryBasedScheduling(Opsional,Boolean)

Jikatrue, penjadwalan berbasis memori diaktifkan di Slurm. Untuk informasi lebih lanjut, lihat SlurmQueues/ComputeResources/SchedulableMemory.

Nilai default-nya adalah false.

Awas

Mengaktifkan penjadwalan berbasis memori berdampak pada cara Slurm scheduler menangani pekerjaan dan alokasi node.

Untuk informasi selengkapnya, lihat Slurmpenjadwalan berbasis memori.

catatan

EnableMemoryBasedSchedulingdidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

catatan

Dimulai dengan AWS ParallelCluster versi 3.7.0, EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6.x, tidak EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

CustomSlurmSettings(Opsional,[Dict])

Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.

Menentukan daftar Slurm kamus konfigurasi pasangan kunci-nilai yang akan ditambahkan ke akhir file yang menghasilkan. slurm.conf AWS ParallelCluster

Setiap kamus dalam daftar muncul sebagai baris terpisah yang ditambahkan ke Slurm file konfigurasi. Anda dapat menentukan parameter sederhana atau kompleks.

Parameter sederhana terdiri dari single key pair, seperti yang ditunjukkan pada contoh berikut:

- Param1: 100 - Param2: "SubParam1,SubParam2=SubValue2"

Contoh yang diberikan di Slurm konfigurasi:

Param1=100 Param2=SubParam1,SubParam2=SubValue2

Kompleks Slurm parameter konfigurasi terdiri dari beberapa nilai kunci yang dipisahkan ruang, pasangan seperti yang ditunjukkan pada contoh berikut:

- NodeName: test-nodes[1-10] CPUs: 4 RealMemory: 4196 ... # other node settings - NodeSet: test-nodeset Nodes: test-nodes[1-10] ... # other nodeset settings - PartitionName: test-partition Nodes: test-nodeset ... # other partition settings

Contoh, dirender di Slurm konfigurasi:

NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings PartitionName=test-partition Nodes=test-nodeset ... # other partition settings
catatan

Kustom Slurm node tidak boleh mengandung -st- atau -dy- pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.

Jika Anda menentukan kustom Slurm parameter konfigurasi diCustomSlurmSettings, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettingsIncludeFile.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettings Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.

AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.

Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

CustomSlurmSettingsIncludeFile(Opsional,String)

Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.

Menentukan kustom Slurm file yang terdiri dari custom Slurm parameter konfigurasi yang akan ditambahkan di akhir slurm.conf file yang AWS ParallelCluster menghasilkan.

Anda harus menyertakan jalur ke file. Jalan bisa dimulai dengan https:// ataus3://.

Jika Anda menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettingsIncludeFile, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettings.

catatan

Kustom Slurm node tidak boleh mengandung -st- atau -dy- pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettingsIncludeFile Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.

AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.

Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

Database

(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi pada cluster. Untuk informasi selengkapnya, lihat Slurm akuntansi dengan AWS ParallelCluster.

Database: Uri: string UserName: string PasswordSecretArn: string

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

Databaseproperti

Uri(Diperlukan,String)

Alamat ke server database yang digunakan sebagai backend untuk Slurm akuntansi. Ini URI harus diformat sebagai host:port dan tidak boleh mengandung skema, sepertimysql://. Host dapat berupa alamat IP atau DNS nama yang dapat diselesaikan oleh node kepala. Jika port tidak disediakan, AWS ParallelCluster gunakan MySQL port standar 3306.

AWS ParallelCluster bootstraps Slurm database akuntansi ke cluster dan harus mengakses database.

Database harus dapat dijangkau sebelum hal berikut terjadi:

  • Sebuah cluster dibuat.

  • Slurm akuntansi diaktifkan dengan pembaruan cluster.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

UserName(Diperlukan,String)

Identitas yang Slurm menggunakan untuk terhubung ke database, menulis log akuntansi, dan melakukan kueri. Pengguna harus memiliki izin baca dan tulis pada database.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

PasswordSecretArn(Diperlukan,String)

Nama Sumber Daya Amazon (ARN) dari AWS Secrets Manager rahasia yang berisi kata sandi UserName teks biasa. Kata sandi ini digunakan bersama dengan UserName dan Slurm akuntansi untuk mengautentikasi pada server database.

catatan

Saat membuat rahasia menggunakan AWS Secrets Manager konsol pastikan untuk memilih “Jenis rahasia lainnya”, pilih teks biasa, dan hanya sertakan teks kata sandi dalam rahasia.

Untuk informasi lebih lanjut tentang cara menggunakan AWS Secrets Manager untuk membuat rahasia, lihat Buat AWS Secrets Manager Rahasia

Jika pengguna memiliki izin untuk DescribeSecret, PasswordSecretArn divalidasi. PasswordSecretArnvalid jika rahasia yang ditentukan ada. Jika IAM kebijakan pengguna tidak disertakanDescribeSecret, PasswordSecretArn tidak divalidasi dan pesan peringatan akan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.

Saat Anda memperbaruiPasswordSecretArn, armada komputasi harus dihentikan. Jika nilai rahasia berubah, dan rahasia ARN tidak berubah, cluster tidak diperbarui secara otomatis dengan kata sandi database baru. Untuk memperbarui cluster untuk nilai rahasia baru, Anda harus menjalankan perintah berikut dari dalam node kepala setelah armada komputasi dihentikan.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Awas

Kami menyarankan Anda hanya mengubah kata sandi database ketika armada komputasi dihentikan untuk menghindari hilangnya data akuntansi.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

DatabaseName(Opsional,String)

Nama database pada server database (didefinisikan oleh parameter Uri) yang akan digunakan untuk Slurm Akuntansi.

Nama database mungkin berisi huruf kecil, angka dan garis bawah. Nama mungkin tidak lebih dari 64 karakter.

Parameter ini memetakan ke StorageLoc parameter slurmdbd.conf.

Jika tidak DatabaseName disediakan, ParallelCluster akan menggunakan nama cluster untuk menentukan nilai untukStorageLoc.

Memperbarui DatabaseName diperbolehkan, dengan pertimbangan sebagai berikut:

  • Jika database dengan nama DatabaseName belum ada di server database, slurmdbd akan membuatnya. Ini akan menjadi tanggung jawab Anda untuk mengkonfigurasi ulang database baru sesuai kebutuhan (misalnya menambahkan entitas akuntansi — cluster, akun, pengguna, asosiasiQOSs, dll.).

  • Jika database dengan nama DatabaseName sudah ada di server database, slurmdbd akan menggunakannya untuk Slurm Fungsionalitas akuntansi.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

catatan

Databaseditambahkan dimulai dengan rilis 3.3.0.

ExternalSlurmdbd

(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi dengan server slurmdbd eksternal. Untuk informasi selengkapnya, silakan lihat Slurm akuntansi dengan AWS ParallelCluster.

ExternalSlurmdbd: Host: string Port: integer

ExternalSlurmdbdproperti

Host(Diperlukan,String)

Alamat ke server slurmdbd eksternal untuk Slurm akuntansi. Host dapat berupa alamat IP atau DNS nama yang dapat diselesaikan oleh node kepala.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Port(Opsional,Integer)

Port yang didengarkan oleh layanan slurmdbd. Nilai default-nya adalah 6819.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Dns

(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.

Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean

Dnsproperti

DisableManagedDns(Opsional,Boolean)

Jikatrue, DNS entri untuk cluster tidak dibuat dan Slurm nama node tidak dapat diselesaikan.

Secara default, AWS ParallelCluster buat zona host Route 53 tempat node terdaftar saat diluncurkan. Nilai default-nya adalah false. Jika DisableManagedDns disetel ketrue, zona yang dihosting tidak dibuat oleh AWS ParallelCluster.

Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet

Awas

Sistem resolusi nama diperlukan agar cluster dapat beroperasi dengan benar. Jika DisableManagedDns diatur ketrue, Anda harus memberikan sistem resolusi nama. Untuk menggunakan EC2 default AmazonDNS, setel UseEc2Hostnames ketrue. Atau, konfigurasikan DNS resolver Anda sendiri dan pastikan bahwa nama node terdaftar saat instance diluncurkan. Misalnya, Anda dapat melakukan ini dengan mengonfigurasi CustomActions/OnNodeStart.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

HostedZoneId(Opsional,String)

Mendefinisikan ID zona yang dihosting Route 53 kustom yang akan digunakan untuk resolusi DNS nama klaster. Saat disediakan, AWS ParallelCluster mendaftarkan node cluster di zona host yang ditentukan dan tidak membuat zona host terkelola.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

UseEc2Hostnames(Opsional,Boolean)

Jikatrue, node komputasi cluster dikonfigurasi dengan nama EC2 host default. Bagian Slurm NodeHostNamejuga diperbarui dengan informasi ini. Default-nya adalah false.

Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet

catatan

Catatan ini tidak relevan dimulai dengan AWS ParallelCluster versi 3.3.0.

Untuk versi yang AWS ParallelCluster didukung sebelum 3.3.0:

Ketika UseEc2Hostnames diatur ketrue, file konfigurasi Slurm diatur dengan skrip AWS ParallelCluster prolog danepilog:

  • prologberjalan untuk menambahkan info node ke /etc/hosts node komputasi ketika setiap pekerjaan dialokasikan.

  • epilogberjalan untuk membersihkan konten yang ditulis olehprolog.

Untuk menambahkan kustom prolog atau epilog skrip, tambahkan masing-masing ke /opt/slurm/etc/pcluster/epilog.d/ folder /opt/slurm/etc/pcluster/prolog.d/ atau.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.