Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Bagian Scheduling
(Wajib) Mendefinisikan penjadwal pekerjaan yang digunakan dalam klaster dan contoh komputasi yang dikelola oleh penjadwal pekerjaan. Anda juga dapat menggunakan Slurm atau AWS Batch penjadwal. Masing-masing mendukung serangkaian pengaturan dan properti yang berbeda.
Scheduling: Scheduler: slurm ScalingStrategy:
string
SlurmSettings: MungeKeySecretArn:string
ScaledownIdletime:integer
QueueUpdateStrategy:string
EnableMemoryBasedScheduling:boolean
CustomSlurmSettings:[dict]
CustomSlurmSettingsIncludeFile:string
Database: Uri:string
UserName:string
PasswordSecretArn:string
DatabaseName:string
ExternalSlurmdbd:boolean
Host:string
Port:integer
Dns: DisableManagedDns:boolean
HostedZoneId:string
UseEc2Hostnames:boolean
SlurmQueues: - Name:string
ComputeSettings: LocalStorage: RootVolume: Size:integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
CapacityType:string
AllocationStrategy:string
JobExclusiveAllocation:boolean
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
HealthChecks: Gpu: Enabled:boolean
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
ComputeResources: - Name:string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
CustomActions: OnNodeStart: Sequence: - Script:string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
Iam: InstanceProfile:string
InstanceRole:string
S3Access: - BucketName:string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
Image: CustomAmi:string
Scheduling: Scheduler: awsbatch AwsBatchQueues: - Name:
string
CapacityType:string
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
Scheduling
properti
Scheduler
(Diperlukan,String
)-
Menentukan jenis scheduler yang digunakan. Nilai yang didukung adalah
slurm
danawsbatch
.Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
catatan
awsbatch
hanya mendukung sistemalinux2
operasi danx86_64
platform. ScalingStrategy
(Opsional,String
)-
Memungkinkan Anda memilih seberapa dinamis Slurm skala node naik. Nilai yang didukung adalah
all-or-nothing
,greedy-all-or-nothing
danbest-effort
Nilai defaultnya adalahall-or-nothing
.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
Strategi penskalaan hanya berlaku untuk node yang akan dilanjutkan oleh Slurm, bukan untuk node yang akhirnya sudah berjalan.
-
all-or-nothing
Strategi ini secara ketat mengikuti all-or-nothing-approach, yang bertujuan menghindari instance idle di akhir proses penskalaan. Ini beroperasi atas all-or-nothing dasar, yang berarti dapat ditingkatkan sepenuhnya atau tidak sama sekali. Ketahuilah bahwa mungkin ada biaya tambahan karena instans yang diluncurkan sementara, ketika pekerjaan membutuhkan lebih dari 500 node atau menjangkau beberapa sumber daya komputasi. Strategi ini memiliki throughput terendah di antara tiga Strategi Penskalaan yang mungkin. Waktu penskalaan tergantung pada jumlah pekerjaan yang diajukan per Slurm melanjutkan eksekusi program. Selain itu, Anda tidak dapat menskalakan jauh melampaui batas akun RunInstances sumber daya default per eksekusi, yaitu 1000 instance secara default. Rincian lebih lanjut dapat ditemukan di dokumentasi EC2APIpelambatan Amazon -
greedy-all-or-nothing
Mirip dengan all-or-nothing strategi, ini bertujuan untuk menghindari instance idle pasca-penskalaan. Strategi ini memungkinkan penskalaan berlebih sementara selama proses penskalaan untuk mencapai throughput yang lebih tinggi daripada all-or-nothing pendekatan tetapi juga dilengkapi dengan batas penskalaan yang sama yaitu 1000 instance sesuai batas akun sumber daya. RunInstances -
best-effort
Strategi ini memprioritaskan throughput yang tinggi, bahkan jika itu berarti bahwa beberapa contoh mungkin menganggur di akhir proses penskalaan. Ini mencoba untuk mengalokasikan node sebanyak yang diminta oleh pekerjaan, tetapi ada kemungkinan tidak memenuhi seluruh permintaan. Berbeda dengan strategi lainnya, pendekatan upaya terbaik dapat mengakumulasi lebih banyak contoh daripada RunInstances batas standar, dengan biaya memiliki sumber daya yang menganggur di sepanjang eksekusi proses penskalaan ganda.
-
Setiap strategi dirancang untuk memenuhi kebutuhan penskalaan yang berbeda, memungkinkan Anda memilih salah satu yang memenuhi persyaratan dan kendala spesifik Anda.
AwsBatchQueues
(Opsional) Pengaturan AWS Batch antrian. Hanya satu antrian yang didukung. Jika Schedulerdiatur keawsbatch
, bagian ini diperlukan. Untuk informasi selengkapnya tentang awsbatch
penjadwal, lihat penyiapan jaringan danMenggunakan AWS Batch (awsbatch) scheduler dengan AWS ParallelCluster.
AwsBatchQueues: - Name:
string
CapacityType:string
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
AwsBatchQueues
properti
Name
(Diperlukan,String
)-
Nama AWS Batch antrian.
Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
CapacityType
(Opsional,String
)-
Jenis sumber daya komputasi yang digunakan AWS Batch antrian. Nilai yang didukung adalah
ONDEMAND
,SPOT
atauCAPACITY_BLOCK
. Nilai default-nya adalahONDEMAND
.catatan
Jika disetel
CapacityType
keSPOT
, akun Anda harus berisi peranAWSServiceRoleForEC2Spot
terkait layanan. Anda dapat membuat peran ini menggunakan AWS CLI perintah berikut.$
aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.goskope.comUntuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
Networking
(Wajib) Mendefinisikan konfigurasi jaringan untuk AWS Batch antrian.
Networking: SubnetIds: -
string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
Networking
properti
SubnetIds
(Diperlukan,[String]
)-
Menentukan ID dari subnet yang ada untuk menyediakan AWS Batch antrian di. Saat ini hanya satu subnet yang didukung.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
AssignPublicIp
(Opsional,String
)-
Membuat atau menetapkan alamat IP publik ke node dalam AWS Batch antrian. Nilai yang didukung adalah
true
danfalse
. Default tergantung pada subnet yang Anda tentukan.Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
SecurityGroups
(Opsional,[String]
)-
Daftar grup keamanan yang digunakan AWS Batch antrian. Jika Anda tidak menentukan grup keamanan, AWS ParallelCluster buat grup keamanan baru.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
AdditionalSecurityGroups
(Opsional,[String]
)-
Daftar grup keamanan yang digunakan AWS Batch antrian.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
ComputeResources
(Wajib) Mendefinisikan ComputeResources konfigurasi untuk AWS Batch antrian.
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:
string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
ComputeResources
properti
Name
(Diperlukan,String
)-
Nama lingkungan komputasi AWS Batch antrian.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
InstanceTypes
(Diperlukan,[String]
)-
Array lingkungan AWS Batch komputasi dari tipe instance. Semua tipe instance harus menggunakan
x86_64
arsitektur.Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
MinvCpus
(Opsional,Integer
)-
Jumlah minimum VCPUs yang dapat digunakan oleh lingkungan AWS Batch komputasi.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
DesiredVcpus
(Opsional,Integer
)-
Jumlah yang diinginkan dari VCPUs dalam lingkungan AWS Batch komputasi. AWS Batch menyesuaikan nilai ini antara
MinvCpus
danMaxvCpus
berdasarkan permintaan dalam antrian pekerjaan.Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.
MaxvCpus
(Opsional,Integer
)-
Jumlah maksimum VCPUs untuk lingkungan AWS Batch komputasi. Anda tidak dapat mengatur ini ke nilai yang lebih rendah dari
DesiredVcpus
.Kebijakan pembaruan: Pengaturan ini tidak dapat dikurangi selama pembaruan.
SpotBidPercentage
(Opsional,Float
)-
Persentase maksimum harga On-Demand untuk jenis instans yang dapat dicapai oleh harga Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai defaultnya adalah
100
(100%). Rentang yang didukung adalah1
-100
.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
SlurmQueues
(Opsional) Pengaturan untuk Slurm antrian. Jika Schedulerdiatur keslurm
, bagian ini diperlukan.
SlurmQueues: - Name:
string
ComputeSettings: LocalStorage: RootVolume: Size:integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
CapacityType:string
AllocationStrategy:string
JobExclusiveAllocation:boolean
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
HealthChecks: Gpu: Enabled:boolean
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
ComputeResources: - Name:string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
CustomActions: OnNodeStart: Sequence: - Script:string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
Iam: InstanceProfile:string
InstanceRole:string
S3Access: - BucketName:string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
Image: CustomAmi:string
SlurmQueues
properti
Name
(Diperlukan,String
)-
Nama dari Slurm antrian.
catatan
Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster
Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
CapacityReservationTarget
-
catatan
CapacityReservationTarget
ditambahkan dengan AWS ParallelCluster versi 3.3.0.CapacityReservationTarget: CapacityReservationId:
string
CapacityReservationResourceGroupArn:string
Menentukan reservasi kapasitas Sesuai Permintaan untuk sumber daya komputasi antrian.
CapacityReservationId
(Opsional,String
)-
ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. ID dapat merujuk ke ODCRatau Blok Kapasitas untuk ML.
Reservasi harus menggunakan platform yang sama dengan yang digunakan instans. Misalnya, jika instans Anda berjalan
rhel8
, reservasi kapasitas Anda harus berjalan di platform Red Hat Enterprise Linux. Untuk informasi selengkapnya, lihat Platform yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux.catatan
Jika Anda menyertakan Instancesdalam konfigurasi cluster, Anda harus mengecualikan
CapacityReservationId
pengaturan tingkat antrian ini dari konfigurasi. CapacityReservationResourceGroupArn
(Opsional,String
)-
Amazon Resource Name (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas terkait layanan untuk sumber daya komputasi antrian. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari kelompok sumber daya berdasarkan kondisi berikut:
-
Jika
PlacementGroup
diaktifkan di SlurmQueues/Networkingatau/SlurmQueuesComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang menargetkan jenis instance danPlacementGroup
untuk sumber daya komputasi, jika sumber daya komputasi ada.PlacementGroup
Harus menargetkan salah satu jenis instance yang didefinisikan dalam ComputeResources. -
Jika
PlacementGroup
tidak diaktifkan di SlurmQueues/Networkingatau/SlurmQueuesComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang hanya menargetkan jenis instance sumber daya komputasi, jika sumber daya komputasi ada.
Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instans yang dicadangkan di Availability Zone di semua sumber daya komputasi dan Availability Zone antrean. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.
Untuk informasi selengkapnya tentang beberapa persyaratan konfigurasi subnet, lihat Networking/SubnetIds.
catatan
Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.
-
CapacityType
(Opsional,String
)-
Jenis sumber daya komputasi yang Slurm antrian menggunakan. Nilai yang didukung adalah
ONDEMAND
,SPOT
atauCAPACITY_BLOCK
. Nilai default-nya adalahONDEMAND
.catatan
Jika Anda menyetel
CapacityType
keSPOT
, akun Anda harus memiliki peranAWSServiceRoleForEC2Spot
terkait layanan. Anda dapat membuat peran ini dengan menggunakan AWS CLI perintah berikut.$
aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.goskope.comUntuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.
AllocationStrategy
(Opsional,String
)-
Tentukan strategi alokasi untuk semua sumber daya komputasi yang ditentukan dalam. Instances
Nilai yang valid:
lowest-price
|capacity-optimized
|price-capacity-optimized
Default:
lowest-price
lowest-price
-
-
Jika Anda menggunakannya
CapacityType = ONDEMAND
, Amazon EC2 Fleet menggunakan harga untuk menentukan pesanan dan meluncurkan instans harga terendah terlebih dahulu. -
Jika Anda menggunakannya
CapacityType = SPOT
, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Jika kolam kehabisan kapasitas sebelum memenuhi kapasitas yang Anda butuhkan, Amazon EC2 Fleet memenuhi permintaan Anda dengan meluncurkan instans untuk Anda. Secara khusus, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Amazon EC2 Fleet mungkin meluncurkan Instans Spot dari beberapa kumpulan yang berbeda. -
Jika Anda mengatur
CapacityType = CAPACITY_BLOCK
, tidak ada strategi alokasi, sehinggaAllocationStrategy
parameter tidak dapat dikonfigurasi.
-
capacity-optimized
-
-
Jika Anda mengatur
CapacityType = ONDEMAND
,capacity-optimized
tidak tersedia. -
Jika disetel
CapacityType = SPOT
, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot dengan kapasitas optimal untuk jumlah instans yang akan diluncurkan.
-
price-capacity-optimized
-
-
Jika Anda mengatur
CapacityType = ONDEMAND
,capacity-optimized
tidak tersedia. -
Jika Anda menyetel
CapacityType = SPOT
, Amazon EC2 Fleet mengidentifikasi kumpulan dengan ketersediaan kapasitas tertinggi untuk jumlah instans yang diluncurkan. Hal ini berarti bahwa kami akan meminta Instans Spot dari kolam yang kami yakini memiliki peluang interupsi terendah dalam waktu dekat. Amazon EC2 Fleet kemudian meminta Instans Spot dari harga terendah dari kumpulan ini.
-
catatan
AllocationStrategy
didukung mulai AWS ParallelCluster versi 3.3.0. JobExclusiveAllocation
(Opsional,String
)-
Jika diatur ke
true
, SlurmOverSubscribe
bendera partisi diatur keEXCLUSIVE
. KetikaOverSubscribe
=EXCLUSIVE
, pekerjaan di partisi memiliki akses eksklusif ke semua node yang dialokasikan. Untuk informasi lebih lanjut, lihat EXCLUSIVEdi Slurm dokumentasi. Nilai yang valid:
true
|false
Default:
false
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
JobExclusiveAllocation
didukung mulai AWS ParallelCluster versi 3.7.0. CustomSlurmSettings
(Opsional,Dict
)-
Mendefinisikan kustom Slurm pengaturan konfigurasi partisi (antrian).
Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk antrian (partisi).
Setiap pasangan kunci-nilai yang terpisah
Param1: Value1
, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi partisi dalam formatParam1=Value1
.Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan.
CustomSlurmSettings
Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.
Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.
Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf
di Slurm dokumentasi. Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
CustomSlurmSettings
didukung dimulai dengan AWS ParallelCluster versi 3.6.0. Tags
(Opsional, [String])-
Daftar pasangan nilai kunci tag. ComputeResourcetag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau di
SlurmQueues
/.Tags
Key
(Opsional,String
)-
Kunci tanda.
Value
(Opsional,String
)-
Nilai tanda.
HealthChecks
(Opsional)-
Tentukan pemeriksaan kesehatan node komputasi pada semua sumber daya komputasi dalam antrian.
Gpu
(Opsional)-
Tentukan pemeriksaan GPU kesehatan pada semua sumber daya komputasi dalam antrian.
catatan
AWS ParallelCluster tidak mendukung
HealthChecks
/Gpu
di node yang menggunakan sistemalinux2
ARM operasi. Platform ini tidak mendukung GPUManajer Pusat NVIDIA Data (DCGM). Enabled
(Opsional,Boolean
)-
Apakah AWS ParallelCluster melakukan pemeriksaan GPU kesehatan pada node komputasi. Default-nya adalah
false
.
Gpu
perilaku pemeriksaan kesehatan-
Jika
Gpu
/Enabled
disetel ketrue
, AWS ParallelCluster lakukan pemeriksaan GPU kesehatan pada sumber daya komputasi dalam antrian. -
Pemeriksaan
Gpu
kesehatan melakukan pemeriksaan GPU kesehatan pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan degradasi. GPU -
Jika node komputasi gagal dalam pemeriksaan
Gpu
kesehatan, status node komputasi berubah menjadi.DRAIN
Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis. -
Durasi pemeriksaan
Gpu
kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaanGpu
kesehatan (setara dengan jumlah GPU target pekerjaan). Misalnya dengan 8GPUs, durasi tipikal kurang dari 3 menit. -
Jika pemeriksaan
Gpu
kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memilikiGPU, atau, jika sebuah instance memilikiGPU, tetapi bukan NVIDIAGPU, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs didukung. -
Pemeriksaan
Gpu
kesehatan menggunakandcgmi
alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:Ketika pemeriksaan
Gpu
kesehatan dimulai di simpul:-
Ini mendeteksi apakah
nvidia-dcgm
dannvidia-fabricmanager
layanan berjalan. -
Jika layanan ini tidak berjalan, pemeriksaan
Gpu
kesehatan memulainya. -
Ini mendeteksi apakah mode persistensi diaktifkan.
-
Jika mode persistensi tidak diaktifkan, pemeriksaan
Gpu
kesehatan mengaktifkannya.
Pada akhir pemeriksaan kesehatan, pemeriksaan
Gpu
kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal. -
-
Jika pekerjaan ditetapkan ke satu set node tertentuGPUs, pemeriksaan
Gpu
kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaanGpu
kesehatan berjalan pada semua GPUs di node. -
Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan
Gpu
kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan nodeGPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini. -
Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam
/var/log/parallelcluster/slurm_health_check.log
file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:-
Detail tentang tindakan yang dijalankan oleh pemeriksaan
Gpu
kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi. -
GPUPengenal, ID serial, dan file. UUID
-
Output pemeriksaan kesehatan.
-
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
HealthChecks
didukung mulai AWS ParallelCluster versi 3.6.0.
Networking
(Wajib) Mendefinisikan konfigurasi jaringan untuk Slurm antrian.
Networking: SubnetIds: -
string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
Networking
properti
SubnetIds
(Diperlukan,[String]
)-
Subnet yang ada yang Anda berikan IDs Slurm antrian di.
Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/InstanceType, Anda hanya dapat menentukan satu subnet.
Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/Instances, Anda dapat menentukan subnet tunggal atau beberapa subnet.
Jika Anda menggunakan beberapa subnet, semua subnet yang ditentukan untuk antrian harus samaVPC, dengan setiap subnet di Availability Zone (AZ) terpisah.
Misalnya, Anda mendefinisikan subnet-1 dan subnet-2 untuk antrian Anda.
subnet-1
dan tidaksubnet-2
bisa keduanya berada di AZ-1.subnet-1
bisa di AZ-1 dansubnet-2
bisa di AZ-2.Jika Anda mengonfigurasi hanya satu jenis instans dan ingin menggunakan beberapa subnet, tentukan jenis instans Anda sebagai
Instances
pengganti.InstanceType
Misalnya, definisikan
ComputeResources
/Instances
/InstanceType
=instance.type
bukannyaComputeResources
/InstanceType
=instance.type
.catatan
Adaptor Kain Elastis (EFA) tidak didukung di zona ketersediaan yang berbeda.
Penggunaan beberapa Availability Zone dapat menyebabkan peningkatan latensi jaringan penyimpanan dan menambahkan biaya transfer data antar-AZ. Misalnya, ini dapat terjadi ketika sebuah instance mengakses penyimpanan file yang terletak di AZ yang berbeda. Untuk informasi selengkapnya, lihat Transfer Data dalam hal yang sama Wilayah AWS
. Pembaruan cluster untuk mengubah dari penggunaan subnet tunggal ke beberapa subnet:
-
Misalkan definisi subnet dari sebuah cluster didefinisikan dengan subnet tunggal dan AWS ParallelCluster dikelola FSx untuk sistem file Lustre. Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan cluster, Anda harus terlebih dahulu mengubah sistem file terkelola ke sistem file eksternal. Untuk informasi selengkapnya, lihat Ubah penyimpanan AWS ParallelCluster terkelola ke penyimpanan eksternal.
-
Misalkan definisi subnet dari sebuah cluster didefinisikan dengan subnet tunggal dan sistem EFS file Amazon eksternal jika target EFS mount tidak ada untuk semua subnet untuk beberapa subnet yang ditentukan untuk ditambahkan. AZs Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan kluster atau membuat cluster, Anda harus terlebih dahulu membuat semua target pemasangan untuk semua subnet yang ditentukan. AZs
Availability Zone dan reservasi kapasitas cluster didefinisikan dalam CapacityReservationResourceGroupArn:
-
Anda tidak dapat membuat klaster jika tidak ada tumpang tindih antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian.
-
Anda dapat membuat klaster jika ada tumpang tindih sebagian antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian. AWS ParallelCluster mengirim pesan peringatan tentang tumpang tindih sebagian untuk kasus ini.
-
Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.
catatan
Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.
Awas
Peringatan ini berlaku untuk semua versi 3.xy sebelum AWS ParallelCluster versi 3.3.1. AWS ParallelCluster versi 3.3.1 tidak terpengaruh jika parameter ini diubah.
Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.1:
Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Sebelum Anda melanjutkan, pastikan Anda mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSxuntuk Lustre.
Jika nilai subnet baru ditambahkan, Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
Jika nilai subnet dihapus, Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.
-
AssignPublicIp
(Opsional,String
)-
Membuat atau menetapkan alamat IP publik ke node di Slurm antrian. Nilai yang didukung adalah
true
danfalse
. Subnet yang Anda tentukan menentukan nilai default. Subnet dengan IPs default publik untuk menetapkan alamat IP publik.Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus mengatur HeadNode/Networking/ElasticIp
true
untuk menyediakan akses publik. AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk kasus ini, kami menyarankan Anda menggunakan NATgateway untuk menyediakan akses publik ke node komputasi cluster. Dalam hal ini, aturAssignPublicIp
kefalse
. Untuk informasi selengkapnya tentang alamat IP, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
SecurityGroups
(Opsional,[String]
)-
Daftar kelompok keamanan yang akan digunakan untuk Slurm antrian. Jika tidak ada grup keamanan yang ditentukan, AWS ParallelCluster buat grup keamanan untuk Anda.
Verifikasi bahwa grup keamanan dikonfigurasi dengan benar untuk SharedStoragesistem Anda.
Awas
Peringatan ini berlaku untuk semua 3.
x
.y
AWS ParallelCluster versi sebelum versi 3.3.0. AWS ParallelCluster versi 3.3.0 tidak terpengaruh jika parameter ini diubah.Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.0:
Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Pastikan untuk mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSxuntuk Lustre.
Awas
Jika Anda mengaktifkan EFA untuk instans komputasi, pastikan instans yang EFA diaktifkan adalah anggota grup keamanan yang mengizinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
AdditionalSecurityGroups
(Opsional,[String]
)-
Daftar grup keamanan tambahan yang akan digunakan untuk Slurm antrian.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
PlacementGroup
(Opsional)-
Menentukan pengaturan grup penempatan untuk Slurm antrian.
PlacementGroup: Enabled:
boolean
Id:string
Name:string
Enabled
(Opsional,Boolean
)-
Menunjukkan apakah grup penempatan digunakan untuk Slurm antrian. Default-nya adalah
false
. Id
(Opsional,String
)-
Nama grup penempatan untuk grup penempatan klaster yang ada Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.
Name
(Opsional,String
)-
Nama grup penempatan untuk grup penempatan klaster yang ada Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.
catatan
-
Jika
PlacementGroup
/Enabled
disetel ketrue
, tanpaName
atauId
didefinisikan, setiap sumber daya komputasi ditetapkan grup penempatan terkelolanya sendiri, kecuali ComputeResources/Networking/PlacementGroupdidefinisikan untuk mengganti setelan ini. -
Dimulai dengan AWS ParallelCluster versi 3.3.0, SlurmQueuesNetworking/PlacementGroup//Nameditambahkan sebagai alternatif yang disukai untuk SlurmQueues//NetworkingPlacementGroup/Id.
PlacementGroup/Iddan PlacementGroup/Namesetara. Anda dapat menggunakan salah satunya.
Jika Anda menyertakan keduanya PlacementGroup/Iddan PlacementGroup/Name, AWS ParallelCluster gagal. Anda hanya dapat memilih satu atau yang lain.
Anda tidak perlu memperbarui cluster Anda untuk menggunakan PlacementGroup/Name.
Proxy
(Opsional)-
Menentukan pengaturan proxy untuk Slurm antrian.
Proxy: HttpProxyAddress:
string
HttpProxyAddress
(Opsional,String
)-
Mendefinisikan server HTTP atau HTTPS proxy untuk Slurm antrian. Biasanya, itu
https://
.x.x.x.x:8080
Tidak ada nilai default.
Image
(Opsional) Menentukan gambar yang akan digunakan untuk Slurm antrian. Untuk menggunakan hal yang sama AMI untuk semua node, gunakan CustomAmipengaturan di Imagebagian.
Image: CustomAmi:
string
Image
Properti
CustomAmi
(Opsional,String
)-
AMIYang digunakan untuk Slurm antrian bukan defaultAMIs. Anda dapat menggunakan pcluster CLIperintah untuk melihat daftar defaultAMIs.
catatan
AMIHarus didasarkan pada sistem operasi yang sama yang digunakan oleh node kepala.
pcluster list-official-images
Jika kustom AMI memerlukan izin tambahan untuk peluncurannya, Anda harus menambahkan izin ini ke kebijakan node kepala.
Misalnya, jika kustom AMI memiliki snapshot terenkripsi yang terkait dengannya, kebijakan tambahan berikut diperlukan dalam kebijakan node kepala.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:
<AWS_REGION>
:<AWS_ACCOUNT_ID>
:key/<AWS_KMS_KEY_ID>
" ] } ] }Untuk memecahkan masalah peringatan AMI validasi kustom, lihat. Memecahkan masalah kustom AMI
ComputeResources
(Wajib) Mendefinisikan ComputeResources
konfigurasi untuk Slurm antrian.
catatan
Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster
ComputeResources: - Name:
string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
ComputeResources
properti
Name
(Diperlukan,String
)-
Nama dari Slurm lingkungan komputasi antrian. Nama dapat memiliki hingga 25 karakter.
Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
InstanceType
(Diperlukan,String
)-
Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama. Contoh dapat menggunakan
arm64
arsitekturx86_64
atau.Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instance. Jika keduanya didefinisikan, AWS ParallelCluster gagal.
Ketika Anda mendefinisikan
InstanceType
, Anda tidak dapat mendefinisikan beberapa subnet. Jika Anda mengonfigurasi hanya satu jenis instance dan ingin menggunakan beberapa subnet, tentukan tipe instans AndaInstances
daripada diInstanceType
. Untuk informasi lebih lanjut, lihat Networking/SubnetIds.Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus meluncurkan instance komputasi di subnet pribadi seperti yang dijelaskan dalam. AWS ParallelCluster menggunakan dua subnet AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk informasi selengkapnya, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
Instances
(Diperlukan)-
Menentukan daftar jenis contoh untuk sumber daya komputasi. Untuk menentukan strategi alokasi untuk daftar jenis instance, lihat AllocationStrategy.
Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instances. Jika keduanya didefinisikan, AWS ParallelCluster gagal.
Untuk informasi selengkapnya, lihat Beberapa alokasi tipe instans dengan Slurm.
Instances: - InstanceType:
string
catatan
Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6.
x
, tidakEnableMemoryBasedScheduling
dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.InstanceType
(Diperlukan,String
)-
Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama, baik
x86_64
atauarm64
.Jenis instance yang tercantum di Instancesharus memiliki:
-
Jumlah yang samavCPUs, atau, jika DisableSimultaneousMultithreadingdiatur ke
true
, jumlah inti yang sama. -
Jumlah akselerator yang sama dari produsen yang sama.
Jenis instance yang tercantum dalam Instancesdapat memiliki:
-
Jumlah memori yang berbeda.
Dalam hal ini, memori minimum harus ditetapkan sebagai bahan habis pakai Slurm sumber daya.
catatan
Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6.
x
, tidakEnableMemoryBasedScheduling
dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans. -
Kartu jaringan yang berbeda.
Dalam hal ini, jumlah antarmuka jaringan yang dikonfigurasi untuk sumber daya komputasi ditentukan oleh jenis instance dengan jumlah kartu jaringan terkecil.
-
Bandwidth jaringan yang berbeda.
-
Ukuran toko instance yang berbeda.
Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus meluncurkan instance komputasi di subnet pribadi seperti yang dijelaskan dalam. AWS ParallelCluster menggunakan dua subnet AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk informasi selengkapnya, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
-
catatan
Instances
didukung dimulai dengan AWS ParallelCluster versi 3.3.0. MinCount
(Opsional,Integer
)-
Jumlah minimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 0.
catatan
Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
MaxCount
(Opsional,Integer
)-
Jumlah maksimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 10.
Saat menggunakan
CapacityType = CAPACITY_BLOCK
,MaxCount
harus sama denganMinCount
dan lebih besar dari 0, karena semua instance bagian dari reservasi Blok Kapasitas dikelola sebagai node statis.Pada waktu pembuatan cluster, head node menunggu semua node statis siap sebelum menandakan keberhasilan pembuatan cluster. Namun, saat menggunakan
CapacityType = CAPACITY_BLOCK
, bagian node dari sumber daya komputasi yang terkait dengan Blok Kapasitas tidak akan dipertimbangkan untuk pemeriksaan ini. Cluster akan dibuat bahkan jika tidak semua Blok Kapasitas yang dikonfigurasi aktif.catatan
Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster
DynamicNodePriority
(Opsional,Integer
)-
Prioritas node dinamis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter
Weight
konfigurasi node untuk node dinamis sumber daya komputasi. Nilai default-nya adalah 1000
.Slurm memprioritaskan node dengan
Weight
nilai terendah terlebih dahulu.Awas
Penggunaan banyak
Weight
nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.Dalam AWS ParallelCluster versi yang lebih awal dari versi 3.7.0, node statis dan dinamis diberi bobot default yang sama yaitu.
1
Dalam hal ini, Slurm mungkin memprioritaskan node dinamis idle daripada node statis idle karena skema penamaan untuk node statis dan dinamis. Ketika semua yang lain sama, Slurm menjadwalkan node menurut abjad dengan nama.catatan
DynamicNodePriority
ditambahkan dalam AWS ParallelCluster versi 3.7.0.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
StaticNodePriority
(Opsional,Integer
)-
Prioritas node statis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter
Weight
konfigurasi node untuk sumber daya komputasi node statis. Nilai default-nya adalah 1
.Slurm memprioritaskan node dengan
Weight
nilai terendah terlebih dahulu.Awas
Penggunaan banyak
Weight
nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.catatan
StaticNodePriority
ditambahkan dalam AWS ParallelCluster versi 3.7.0.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
SpotPrice
(Opsional,Float
)-
Harga maksimum yang dibayarkan untuk Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai default adalah harga On-Demand.
DisableSimultaneousMultithreading
(Opsional,Boolean
)-
Jika
true
, multithreading pada node di Slurm antrian dinonaktifkan. Nilai default-nya adalahfalse
.Tidak semua tipe instance dapat menonaktifkan multithreading. Untuk daftar jenis instance yang mendukung penonaktifan multithreading, lihat CPUinti dan utas untuk setiap CPU inti per jenis instans di Panduan Pengguna Amazon. EC2
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
SchedulableMemory
(Opsional,Integer
)-
Jumlah memori di MiB yang dikonfigurasi di Slurm parameter
RealMemory
untuk node komputasi sumber daya komputasi. Nilai ini adalah batas atas untuk memori node yang tersedia untuk pekerjaan saat SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Nilai defaultnya adalah 95 persen dari memori yang terdaftar di Jenis EC2 Instance Amazondan dikembalikan oleh Amazon EC2 API DescribeInstanceTypes. Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB. Nilai yang didukung:
1-EC2Memory
EC2Memory
adalah memori (dalam MiB) yang terdaftar di Jenis EC2 Instance Amazondan dikembalikan oleh Amazon. EC2 API DescribeInstanceTypes Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB. Opsi ini paling relevan ketika SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Untuk informasi selengkapnya, lihat Slurmpenjadwalan berbasis memori.
catatan
SchedulableMemory
didukung dimulai dengan AWS ParallelCluster versi 3.2.0.Dimulai dengan versi 3.2.0, secara default, AWS ParallelCluster mengkonfigurasi
RealMemory
untuk Slurm menghitung node hingga 95 persen dari memori yang dikembalikan oleh Amazon EC2 APIDescribeInstanceTypes
. Konfigurasi ini tidak tergantung pada nilaiEnableMemoryBasedScheduling
. HealthChecks
(Opsional)-
Tentukan pemeriksaan kesehatan pada sumber daya komputasi.
Gpu
(Opsional)-
Tentukan pemeriksaan GPU kesehatan pada sumber daya komputasi.
Enabled
(Opsional,Boolean
)-
Apakah AWS ParallelCluster melakukan pemeriksaan GPU kesehatan pada menghitung sumber daya dalam antrian. Default-nya adalah
false
.catatan
AWS ParallelCluster tidak mendukung
HealthChecks
/Gpu
di node yang menggunakan sistemalinux2
ARM operasi. Platform ini tidak mendukung GPUManajer Pusat NVIDIA Data (DCGM).
Gpu
perilaku pemeriksaan kesehatan-
Jika
Gpu
/Enabled
diatur ketrue
, AWS ParallelCluster lakukan pemeriksaan kesehatan GPU kesehatan pada sumber daya komputasi. -
Pemeriksaan
Gpu
kesehatan melakukan pemeriksaan kesehatan pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan degradasi. GPU -
Jika node komputasi gagal dalam pemeriksaan
Gpu
kesehatan, status node komputasi berubah menjadi.DRAIN
Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis. -
Durasi pemeriksaan
Gpu
kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaanGpu
kesehatan (setara dengan jumlah GPU target pekerjaan). Misalnya dengan 8GPUs, durasi tipikal kurang dari 3 menit. -
Jika pemeriksaan
Gpu
kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memilikiGPU, atau, jika sebuah instance memilikiGPU, tetapi bukan NVIDIAGPU, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs didukung. -
Pemeriksaan
Gpu
kesehatan menggunakandcgmi
alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:Ketika pemeriksaan
Gpu
kesehatan dimulai di simpul:-
Ini mendeteksi apakah
nvidia-dcgm
dannvidia-fabricmanager
layanan berjalan. -
Jika layanan ini tidak berjalan, pemeriksaan
Gpu
kesehatan memulainya. -
Ini mendeteksi apakah mode persistensi diaktifkan.
-
Jika mode persistensi tidak diaktifkan, pemeriksaan
Gpu
kesehatan mengaktifkannya.
Pada akhir pemeriksaan kesehatan, pemeriksaan
Gpu
kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal. -
-
Jika pekerjaan ditetapkan ke satu set node tertentuGPUs, pemeriksaan
Gpu
kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaanGpu
kesehatan berjalan pada semua GPUs di node. -
Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan
Gpu
kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan nodeGPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini. -
Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam
/var/log/parallelcluster/slurm_health_check.log
file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:-
Detail tentang tindakan yang dijalankan oleh pemeriksaan
Gpu
kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi. -
GPUPengenal, ID serial, dan file. UUID
-
Output pemeriksaan kesehatan.
-
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
HealthChecks
didukung mulai AWS ParallelCluster versi 3.6.0. Efa
(Opsional)-
Menentukan pengaturan Elastic Fabric Adapter (EFA) untuk node di Slurm antrian.
Efa: Enabled:
boolean
GdrSupport:boolean
Enabled
(Opsional,Boolean
)-
Menentukan bahwa Adaptor Kain Elastis (EFA) diaktifkan. Untuk melihat daftar EC2 instans Amazon yang mendukungEFA, lihat Jenis instans yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux. Untuk informasi selengkapnya, lihat Elastic Fabric Adapter. Kami menyarankan Anda menggunakan cluster SlurmQueues/Networking/PlacementGroupuntuk meminimalkan latensi antar instance.
Nilai default-nya adalah
false
.catatan
Adaptor Kain Elastis (EFA) tidak didukung di zona ketersediaan yang berbeda. Untuk informasi lebih lanjut, lihat SubnetIds.
Awas
Jika Anda mendefinisikan grup keamanan khusus SecurityGroups, pastikan instans yang EFA diaktifkan adalah anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.
GdrSupport
(Opsional,Boolean
)-
(Opsional) Dimulai dengan AWS ParallelCluster versi 3.0.2, pengaturan ini tidak berpengaruh. Dukungan Elastic Fabric Adapter GPUDirect RDMA (EFA) untuk (akses memori langsung jarak jauh) selalu diaktifkan jika didukung oleh jenis instans untuk Slurm menghitung sumber daya dan sistem operasi.
catatan
AWS ParallelCluster versi 3.0.0 hingga 3.0.1: Support for diaktifkan untuk GPUDirect RDMA Slurm menghitung sumber daya. Support for GPUDirect RDMA didukung oleh jenis instance tertentu (
p4d.24xlarge
) pada sistem operasi tertentu (Osisalinux2
,ubuntu1804
, atauubuntu2004
). Nilai default adalah false.
CapacityReservationTarget
-
CapacityReservationTarget: CapacityReservationId:
string
CapacityReservationResourceGroupArn:string
Menentukan reservasi kapasitas sesuai permintaan yang akan digunakan untuk sumber daya komputasi.
CapacityReservationId
(Opsional,String
)-
ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. Id dapat merujuk ke ODCRatau Blok Kapasitas untuk ML.
Ketika parameter ini ditentukan pada tingkat sumber daya komputasi, InstanceType adalah opsional, itu akan secara otomatis diambil dari reservasi.
CapacityReservationResourceGroupArn
(Opsional,String
)-
Menunjukkan Amazon Resource Name (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas yang ditautkan layanan untuk sumber daya komputasi. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari grup. Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instance yang terdaftar untuk sumber daya komputasi. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan () ODCR.
-
Jika
PlacementGroup
diaktifkan di SlurmQueues/Networkingatau SlurmQueues/ComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang menargetkan jenis instance danPlacementGroup
untuk sumber daya komputasi jika ada.PlacementGroup
Harus menargetkan salah satu jenis instance yang didefinisikan dalam ComputeResources. -
Jika
PlacementGroup
tidak diaktifkan di SlurmQueues/Networkingatau SlurmQueues/ComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang hanya menargetkan jenis instance sumber daya komputasi, jika ada.
-
catatan
CapacityReservationTarget
ditambahkan dengan AWS ParallelCluster versi 3.3.0. Networking
-
Networking: PlacementGroup: Enabled:
boolean
Name:string
PlacementGroup
(Opsional)-
Menentukan pengaturan grup penempatan untuk sumber daya komputasi.
Enabled
(Opsional,Boolean
)-
Menunjukkan apakah grup penempatan digunakan untuk sumber daya komputasi.
-
Jika disetel ke
true
, tanpaName
didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan terkelolanya sendiri, terlepas dari PlacementGrouppengaturan SlurmQueues/Networking/. -
Jika disetel ke
true
, denganName
didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan bernama, terlepas dariPlacementGroup
pengaturanSlurmQueues
/Networking
/.
-
Name
(Opsional,String
)-
Nama grup penempatan untuk grup penempatan klaster yang ada yang digunakan untuk sumber daya komputasi.
catatan
-
Jika keduanya
PlacementGroup
/Enabled
danName
tidak disetel, nilainya masing-masing default ke PlacementGrouppengaturan SlurmQueuesNetworking//. -
ComputeResources
/Networking
/PlacementGroup
ditambahkan dengan AWS ParallelCluster versi 3.3.0.
CustomSlurmSettings
(Opsional,Dict
)-
(Opsional) Mendefinisikan kustom Slurm pengaturan konfigurasi node (sumber daya komputasi).
Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk Slurm node (sumber daya komputasi).
Setiap pasangan kunci-nilai yang terpisah
Param1: Value1
, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi node dalam formatParam1=Value1
.Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan.
CustomSlurmSettings
Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.
Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.
Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf
di Slurm dokumentasi. Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
CustomSlurmSettings
didukung dimulai dengan AWS ParallelCluster versi 3.6.0. Tags
(Opsional, [String])-
Daftar pasangan nilai kunci tag.
ComputeResource
tag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau SlurmQueues/.Tags
Key
(Opsional,String
)-
Kunci tanda.
Value
(Opsional,String
)-
Nilai tanda.
ComputeSettings
(Wajib) Mendefinisikan ComputeSettings
konfigurasi untuk Slurm antrian.
ComputeSettings
properti
Menentukan sifat-sifat ComputeSettings
dari node di Slurm antrian.
ComputeSettings: LocalStorage: RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
LocalStorage
(Opsional)-
Menentukan sifat-sifat
LocalStorage
dari node di Slurm antrian.LocalStorage: RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
RootVolume
(Opsional)-
Menentukan rincian volume root node di Slurm antrian.
RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
Size
(Opsional,Integer
)-
Menentukan ukuran volume root dalam gibibytes (GiB) untuk node di Slurm antrian. Ukuran default berasal dari fileAMI. Menggunakan ukuran yang berbeda mengharuskan AMI dukungan
growroot
. Encrypted
(Opsional,Boolean
)-
Jika
true
, volume root node di Slurm antrian dienkripsi. Nilai default-nya adalahfalse
. VolumeType
(Opsional,String
)-
Menentukan jenis EBS volume Amazon dari node di Slurm antrian. Nilai yang didukung adalah
gp2
gp3
,io1
,io2
,sc1
,st1
, danstandard
. Nilai default-nya adalahgp3
.Untuk informasi selengkapnya, lihat Jenis EBS volume Amazon di Panduan EC2 Pengguna Amazon.
Iops
(Opsional,Boolean
)-
Mendefinisikan jumlah IOPS untuk
io1
,io2
, dangp3
jenis volume.Nilai default, nilai yang didukung, dan
volume_iops
volume_size
rasio bervariasi menurutVolumeType
danSize
.VolumeType
=io1
-
Default
Iops
= 100Nilai yang didukung
Iops
= 100—64000 †volume_size
Rasio maksimumvolume_iops
= 50 IOPS per GiB. 5000 IOPS membutuhkanvolume_size
minimal 100 GiB. VolumeType
=io2
-
Default
Iops
= 100Nilai yang didukung
Iops
= 100—64000 (256000 untukio2
volume Block Express) †Size
Rasio maksimumIops
= 500 IOPS per GiB. 5000 IOPS membutuhkanSize
minimal 10 GiB. VolumeType
=gp3
-
Default
Iops
= 3000Nilai yang didukung
Iops
= 3000—16000 †Size
Rasio maksimumIops
= 500 IOPS per GiB untuk volume dengan IOPS lebih besar dari 3000.
† Maksimum IOPS dijamin hanya pada Instans yang dibangun di atas Sistem Nitro yang juga disediakan dengan lebih dari 32.000. IOPS Contoh lain dapat memiliki hingga 32.000IOPS.
io1
Volume sebelumnya mungkin tidak mencapai performa penuh kecuali Anda memodifikasi volume.io2
Volume Block Express mendukungvolume_iops
nilai hingga 256000 pada jenisR5b
instans. Untuk informasi selengkapnya, lihatio2
Blokir volume Express di Panduan EC2 Pengguna Amazon. Throughput
(Opsional,Integer
)-
Mendefinisikan throughput untuk tipe
gp3
volume, dalam MIB/s. Pengaturan ini hanya valid jikaVolumeType
adagp3
. Nilai default-nya adalah125
. Nilai yang didukung: 125—1000 MiB/sRasio
Throughput
toIops
bisa tidak lebih dari 0,25. Throughput maksimum 1000 MiB/s mengharuskanIops
pengaturan setidaknya 4000.
EphemeralVolume
(Opsional,Boolean
)-
Menentukan pengaturan untuk volume fana. Volume sementara dibuat dengan menggabungkan semua volume penyimpanan instance ke dalam volume logis tunggal yang diformat dengan sistem file.
ext4
Default-nya adalah/scratch
. Jika tipe instance tidak memiliki volume penyimpanan instance apa pun, tidak ada volume sementara yang dibuat. Untuk informasi selengkapnya, lihat Volume penyimpanan instans di Panduan EC2 Pengguna Amazon.EphemeralVolume: MountDir:
string
MountDir
(Opsional,String
)-
Direktori mount untuk volume fana untuk setiap node di Slurm antrian.
CustomActions
(Opsional) Menentukan skrip kustom untuk berjalan pada node di Slurm antrian.
CustomActions: OnNodeStart: Sequence: - Script:
string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
CustomActions
Properti
OnNodeStart
(Opsional,String
)-
Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian sebelum tindakan bootstrap penerapan node dimulai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan
Sequence
untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.Sequence
(Opsional)-
Daftar skrip untuk dijalankan.
Script
(Diperlukan,String
)-
File yang akan digunakan. Jalur file dapat dimulai dengan
https://
ataus3://
. Args
(Opsional,[String]
)-
Daftar argumen untuk diteruskan ke skrip.
Script
(Diperlukan,String
)-
File yang akan digunakan untuk satu skrip. Jalur file dapat dimulai dengan
https://
ataus3://
. Args
(Opsional,[String]
)-
Daftar argumen untuk diteruskan ke skrip tunggal.
OnNodeConfigured
(Opsional,String
)-
Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian setelah semua tindakan bootstrap node selesai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan
Sequence
untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.Sequence
(Opsional)-
Daftar skrip untuk dijalankan.
Script
(Diperlukan,String
)-
File yang akan digunakan. Jalur file dapat dimulai dengan
https://
ataus3://
. Args
(Opsional,[String]
)-
Daftar argumen untuk diteruskan ke skrip.
Script
(Diperlukan,String
)-
File yang akan digunakan untuk satu skrip. Jalur file dapat dimulai dengan
https://
ataus3://
. Args
(Opsional,[String]
)-
Daftar argumen untuk diteruskan ke skrip tunggal.
catatan
Sequence
ditambahkan dimulai dengan AWS ParallelCluster versi 3.6.0. Saat Anda menentukanSequence
, Anda dapat membuat daftar beberapa skrip untuk tindakan kustom. AWS ParallelCluster terus mendukung konfigurasi tindakan khusus dengan satu skrip, tanpa menyertakanSequence
.AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan
Sequence
untuk tindakan kustom yang sama.
Iam
(Opsional) Mendefinisikan IAM pengaturan opsional untuk Slurm antrian.
Iam: S3Access: - BucketName:
string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
InstanceProfile:string
InstanceRole:string
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
Iam
Properti
InstanceProfile
(Opsional,String
)-
Menentukan profil contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya
InstanceProfile
danInstanceRole
. Formatnya adalaharn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}
.Jika ini ditentukan,
AdditionalIamPolicies
pengaturanS3Access
dan tidak dapat ditentukan.Kami menyarankan Anda menentukan salah satu atau kedua
AdditionalIamPolicies
pengaturanS3Access
dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
InstanceRole
(Opsional,String
)-
Menentukan peran contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya
InstanceProfile
danInstanceRole
. Formatnya adalaharn:${Partition}:iam::${Account}:role/${RoleName}
.Jika ini ditentukan,
AdditionalIamPolicies
pengaturanS3Access
dan tidak dapat ditentukan.Kami menyarankan Anda menentukan salah satu atau kedua
AdditionalIamPolicies
pengaturanS3Access
dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
S3Access
(Opsional)-
Menentukan ember untuk Slurm antrian. Ini digunakan untuk menghasilkan kebijakan guna memberikan akses yang ditentukan ke bucket di Slurm antrian.
Jika ini ditentukan,
InstanceRole
pengaturanInstanceProfile
dan tidak dapat ditentukan.Kami menyarankan Anda menentukan salah satu atau kedua
AdditionalIamPolicies
pengaturanS3Access
dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.S3Access: - BucketName:
string
EnableWriteAccess:boolean
KeyName:string
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
BucketName
(Diperlukan,String
)-
Nama ember.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
KeyName
(Opsional,String
)-
Kunci untuk ember. Nilai default-nya adalah
*
.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
EnableWriteAccess
(Opsional,Boolean
)-
Menunjukkan apakah akses tulis diaktifkan untuk bucket.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
AdditionalIamPolicies
(Opsional)-
Menentukan daftar Nama Sumber Daya Amazon (ARNs) IAM kebijakan untuk AmazonEC2. Daftar ini dilampirkan ke peran root yang digunakan untuk Slurm antrian selain izin yang diperlukan oleh. AWS ParallelCluster
Nama IAM kebijakan dan ARN itu berbeda. Nama tidak bisa digunakan.
Jika ini ditentukan,
InstanceRole
pengaturanInstanceProfile
dan tidak dapat ditentukan.Kami menyarankan Anda menggunakan
AdditionalIamPolicies
karenaAdditionalIamPolicies
ditambahkan ke izin yang AWS ParallelCluster diperlukan, danInstanceRole
harus menyertakan semua izin yang diperlukan. Izin yang diperlukan sering berubah dari rilis ke rilis saat fitur ditambahkan.Tidak ada nilai default.
AdditionalIamPolicies: - Policy:
string
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
Policy
(Diperlukan,[String]
)-
Daftar IAM kebijakan.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
SlurmSettings
(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.
SlurmSettings: ScaledownIdletime:
integer
QueueUpdateStrategy:string
EnableMemoryBasedScheduling:boolean
CustomSlurmSettings:[dict]
CustomSlurmSettingsIncludeFile:string
Database: Uri:string
UserName:string
PasswordSecretArn:string
ExternalSlurmdbd: Host:string
Port:integer
Dns: DisableManagedDns:boolean
HostedZoneId:string
UseEc2Hostnames:boolean
SlurmSettings
Properti
ScaledownIdletime
(Opsional,Integer
)-
Mendefinisikan jumlah waktu (dalam menit) bahwa tidak ada pekerjaan dan Slurm node berakhir.
Nilai default-nya adalah
10
.Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
MungeKeySecretArn
(Opsional,String
)-
Amazon Resource Name (ARN) dari AWS rahasia Secrets Manager plaintext yang berisi kunci munge yang dikodekan base64 untuk digunakan Slurm klaster. Kunci munge ini akan digunakan untuk mengautentikasi panggilan antara RPC Slurm perintah klien dan Slurm daemon bertindak sebagai server jarak jauh. Jika tidak MungeKeySecretArn disediakan, AWS ParallelCluster akan menghasilkan kunci munge acak untuk cluster.
catatan
MungeKeySecretArn
didukung dimulai dengan AWS ParallelCluster versi 3.8.0.Awas
Jika baru MungeKeySecretArn ditambahkan ke cluster yang ada, tidak ParallelCluster akan mengembalikan Kunci munge sebelumnya jika terjadi Rollback atau ketika kemudian menghapus. MungeKeySecretArn Sebagai gantinya, kunci munge acak baru akan dihasilkan.
Jika AWS ParallelCluster pengguna memiliki izin untuk DescribeSecretpada sumber rahasia tertentu, MungeKeySecretArn divalidasi. MungeKeySecretArn berlaku jika:
-
Rahasia yang ditentukan ada, dan
-
Rahasianya adalah plaintext dan berisi string berenkode base64 yang valid, dan
-
Kunci munge biner yang diterjemahkan memiliki ukuran antara 256 dan 8192 bit.
Jika IAM kebijakan pengguna pcluster tidak termasuk DescribeSecret, tidak MungeKeySecretArn divalidasi dan pesan peringatan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.
Saat Anda memperbarui MungeKeySecretArn, armada komputasi dan semua node login harus dihentikan.
Jika nilai rahasia dalam rahasia ARN dimodifikasi sementara ARN tetap sama, cluster tidak akan secara otomatis diperbarui dengan kunci munge baru. Untuk menggunakan kunci munge baru ARN rahasia, Anda harus menghentikan armada komputasi dan login node kemudian menjalankan perintah berikut dari node kepala.
sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh
Setelah menjalankan perintah, Anda dapat melanjutkan armada komputasi dan node login: node komputasi dan login yang baru disediakan akan secara otomatis mulai menggunakan kunci munge baru.
Untuk menghasilkan kunci munge kustom yang dikodekan base64, Anda dapat menggunakan utilitas mungekey
yang didistribusikan dengan perangkat lunak munge dan kemudian menyandikannya menggunakan utilitas base64 yang umumnya tersedia di OS Anda. Atau, Anda juga menggunakan bash (harap atur parameter bs antara 32 dan 1024) dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0
atau Python sebagai berikut:
import random import os import base64 # key length in bytes key_length=128 base64.b64encode(os.urandom(key_length)).decode("utf-8")
Kebijakan Pembaruan: NEW UPDATE POLICY WITH COMPUTE FLEET AND LOGIN NODES STOPPED (keliru tidak ditambahkan di 3.7.0).
-
QueueUpdateStrategy
(Opsional,String
)-
Menentukan strategi penggantian untuk parameter SlurmQueues bagian yang memiliki kebijakan pembaruan berikut:
QueueUpdateStrategy
Nilai hanya digunakan ketika proses pembaruan cluster dimulai.Nilai yang valid:
COMPUTE_FLEET_STOP
|DRAIN
|TERMINATE
Nilai default:
COMPUTE_FLEET_STOP
DRAIN
-
Node dalam antrian dengan nilai parameter yang diubah diatur ke.
DRAINING
Node dalam keadaan ini tidak menerima pekerjaan baru dan menjalankan pekerjaan terus selesai.Setelah node menjadi
idle
(DRAINED
), node diganti jika node statis, dan node dihentikan jika node dinamis. Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.Waktu yang dibutuhkan strategi ini untuk mengganti semua node antrian dengan nilai parameter yang diubah tergantung pada beban kerja yang sedang berjalan.
COMPUTE_FLEET_STOP
-
Nilai default
QueueUpdateStrategy
parameter. Dengan pengaturan ini, memperbarui parameter di bawah SlurmQueues bagian mengharuskan Anda menghentikan armada komputasi sebelum melakukan pembaruan cluster:$
pcluster update-compute-fleet --status STOP_REQUESTED
TERMINATE
-
Dalam antrian dengan nilai parameter yang diubah, pekerjaan yang berjalan dihentikan dan node segera dimatikan.
Node statis diganti dan node dinamis dihentikan.
Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.
Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.
catatan
QueueUpdateStrategy
didukung dimulai dengan AWS ParallelCluster versi 3.2.0. EnableMemoryBasedScheduling
(Opsional,Boolean
)-
Jika
true
, penjadwalan berbasis memori diaktifkan di Slurm. Untuk informasi lebih lanjut, lihat SlurmQueues/ComputeResources/SchedulableMemory.Nilai default-nya adalah
false
.Awas
Mengaktifkan penjadwalan berbasis memori berdampak pada cara Slurm scheduler menangani pekerjaan dan alokasi node.
Untuk informasi selengkapnya, lihat Slurmpenjadwalan berbasis memori.
catatan
EnableMemoryBasedScheduling
didukung dimulai dengan AWS ParallelCluster versi 3.2.0.catatan
Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6.
x
, tidakEnableMemoryBasedScheduling
dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
CustomSlurmSettings
(Opsional,[Dict]
)-
Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.
Menentukan daftar Slurm kamus konfigurasi pasangan kunci-nilai yang akan ditambahkan ke akhir file yang menghasilkan.
slurm.conf
AWS ParallelClusterSetiap kamus dalam daftar muncul sebagai baris terpisah yang ditambahkan ke Slurm file konfigurasi. Anda dapat menentukan parameter sederhana atau kompleks.
Parameter sederhana terdiri dari single key pair, seperti yang ditunjukkan pada contoh berikut:
- Param1: 100 - Param2: "SubParam1,SubParam2=SubValue2"
Contoh yang diberikan di Slurm konfigurasi:
Param1=100 Param2=SubParam1,SubParam2=SubValue2
Kompleks Slurm parameter konfigurasi terdiri dari beberapa nilai kunci yang dipisahkan ruang, pasangan seperti yang ditunjukkan pada contoh berikut:
- NodeName: test-nodes[1-10] CPUs: 4 RealMemory: 4196 ... # other node settings - NodeSet: test-nodeset Nodes: test-nodes[1-10] ... # other nodeset settings - PartitionName: test-partition Nodes: test-nodeset ... # other partition settings
Contoh, dirender di Slurm konfigurasi:
NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings PartitionName=test-partition Nodes=test-nodeset ... # other partition settings
catatan
Kustom Slurm node tidak boleh mengandung
-st-
atau-dy-
pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.Jika Anda menentukan kustom Slurm parameter konfigurasi di
CustomSlurmSettings
, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettingsIncludeFile
.Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan.
CustomSlurmSettings
Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.
Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.
Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf
di Slurm dokumentasi. Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
CustomSlurmSettings
didukung dimulai dengan AWS ParallelCluster versi 3.6.0. CustomSlurmSettingsIncludeFile
(Opsional,String
)-
Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.
Menentukan kustom Slurm file yang terdiri dari custom Slurm parameter konfigurasi yang akan ditambahkan di akhir
slurm.conf
file yang AWS ParallelCluster menghasilkan.Anda harus menyertakan jalur ke file. Jalan bisa dimulai dengan
https://
ataus3://
.Jika Anda menentukan kustom Slurm parameter konfigurasi untuk
CustomSlurmSettingsIncludeFile
, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettings
.catatan
Kustom Slurm node tidak boleh mengandung
-st-
atau-dy-
pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan.
CustomSlurmSettingsIncludeFile
Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakanSlurmparameter konfigurasi untukCustomSlurmSettings.AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.
Untuk informasi lebih lanjut tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurmkustomisasi konfigurasi.
Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf
di Slurm dokumentasi. Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
catatan
CustomSlurmSettings
didukung dimulai dengan AWS ParallelCluster versi 3.6.0.
Database
(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi pada cluster. Untuk informasi selengkapnya, lihat Slurm akuntansi dengan AWS ParallelCluster.
Database: Uri:
string
UserName:string
PasswordSecretArn:string
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
Database
properti
Uri
(Diperlukan,String
)-
Alamat ke server database yang digunakan sebagai backend untuk Slurm akuntansi. Ini URI harus diformat sebagai
host:port
dan tidak boleh mengandung skema, sepertimysql://
. Host dapat berupa alamat IP atau DNS nama yang dapat diselesaikan oleh node kepala. Jika port tidak disediakan, AWS ParallelCluster gunakan MySQL port standar 3306.AWS ParallelCluster bootstraps Slurm database akuntansi ke cluster dan harus mengakses database.
Database harus dapat dijangkau sebelum hal berikut terjadi:
-
Sebuah cluster dibuat.
-
Slurm akuntansi diaktifkan dengan pembaruan cluster.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
-
UserName
(Diperlukan,String
)-
Identitas yang Slurm menggunakan untuk terhubung ke database, menulis log akuntansi, dan melakukan kueri. Pengguna harus memiliki izin baca dan tulis pada database.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
PasswordSecretArn
(Diperlukan,String
)-
Nama Sumber Daya Amazon (ARN) dari AWS Secrets Manager rahasia yang berisi kata sandi
UserName
teks biasa. Kata sandi ini digunakan bersama denganUserName
dan Slurm akuntansi untuk mengautentikasi pada server database.catatan
Saat membuat rahasia menggunakan AWS Secrets Manager konsol pastikan untuk memilih “Jenis rahasia lainnya”, pilih teks biasa, dan hanya sertakan teks kata sandi dalam rahasia.
Untuk informasi lebih lanjut tentang cara menggunakan AWS Secrets Manager untuk membuat rahasia, lihat Buat AWS Secrets Manager Rahasia
Jika pengguna memiliki izin untuk DescribeSecret,
PasswordSecretArn
divalidasi.PasswordSecretArn
valid jika rahasia yang ditentukan ada. Jika IAM kebijakan pengguna tidak disertakanDescribeSecret
,PasswordSecretArn
tidak divalidasi dan pesan peringatan akan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.Saat Anda memperbarui
PasswordSecretArn
, armada komputasi harus dihentikan. Jika nilai rahasia berubah, dan rahasia ARN tidak berubah, cluster tidak diperbarui secara otomatis dengan kata sandi database baru. Untuk memperbarui cluster untuk nilai rahasia baru, Anda harus menjalankan perintah berikut dari dalam node kepala setelah armada komputasi dihentikan.$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.shAwas
Kami menyarankan Anda hanya mengubah kata sandi database ketika armada komputasi dihentikan untuk menghindari hilangnya data akuntansi.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
DatabaseName
(Opsional,String
)-
Nama database pada server database (didefinisikan oleh parameter Uri) yang akan digunakan untuk Slurm Akuntansi.
Nama database mungkin berisi huruf kecil, angka dan garis bawah. Nama mungkin tidak lebih dari 64 karakter.
Parameter ini memetakan ke
StorageLoc
parameter slurmdbd.conf. Jika tidak
DatabaseName
disediakan, ParallelCluster akan menggunakan nama cluster untuk menentukan nilai untukStorageLoc
.Memperbarui
DatabaseName
diperbolehkan, dengan pertimbangan sebagai berikut:-
Jika database dengan nama DatabaseName belum ada di server database, slurmdbd akan membuatnya. Ini akan menjadi tanggung jawab Anda untuk mengkonfigurasi ulang database baru sesuai kebutuhan (misalnya menambahkan entitas akuntansi — cluster, akun, pengguna, asosiasiQOSs, dll.).
-
Jika database dengan nama DatabaseName sudah ada di server database, slurmdbd akan menggunakannya untuk Slurm Fungsionalitas akuntansi.
Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.
-
catatan
Database
ditambahkan dimulai dengan rilis 3.3.0.
ExternalSlurmdbd
(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi dengan server slurmdbd eksternal. Untuk informasi selengkapnya, silakan lihat Slurm akuntansi dengan AWS ParallelCluster.
ExternalSlurmdbd: Host:
string
Port:integer
ExternalSlurmdbd
properti
Host
(Diperlukan,String
)-
Alamat ke server slurmdbd eksternal untuk Slurm akuntansi. Host dapat berupa alamat IP atau DNS nama yang dapat diselesaikan oleh node kepala.
Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
Port
(Opsional,Integer
)-
Port yang didengarkan oleh layanan slurmdbd. Nilai default-nya adalah
6819
.Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.
Dns
(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.
Dns: DisableManagedDns:
boolean
HostedZoneId:string
UseEc2Hostnames:boolean
Dns
properti
DisableManagedDns
(Opsional,Boolean
)-
Jika
true
, DNS entri untuk cluster tidak dibuat dan Slurm nama node tidak dapat diselesaikan.Secara default, AWS ParallelCluster buat zona host Route 53 tempat node terdaftar saat diluncurkan. Nilai default-nya adalah
false
. JikaDisableManagedDns
disetel ketrue
, zona yang dihosting tidak dibuat oleh AWS ParallelCluster.Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet
Awas
Sistem resolusi nama diperlukan agar cluster dapat beroperasi dengan benar. Jika
DisableManagedDns
diatur ketrue
, Anda harus memberikan sistem resolusi nama. Untuk menggunakan EC2 default AmazonDNS, setelUseEc2Hostnames
ketrue
. Atau, konfigurasikan DNS resolver Anda sendiri dan pastikan bahwa nama node terdaftar saat instance diluncurkan. Misalnya, Anda dapat melakukan ini dengan mengonfigurasi CustomActions/OnNodeStart.Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
HostedZoneId
(Opsional,String
)-
Mendefinisikan ID zona yang dihosting Route 53 kustom yang akan digunakan untuk resolusi DNS nama klaster. Saat disediakan, AWS ParallelCluster mendaftarkan node cluster di zona host yang ditentukan dan tidak membuat zona host terkelola.
Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
UseEc2Hostnames
(Opsional,Boolean
)-
Jika
true
, node komputasi cluster dikonfigurasi dengan nama EC2 host default. Bagian SlurmNodeHostName
juga diperbarui dengan informasi ini. Default-nya adalahfalse
.Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet
catatan
Catatan ini tidak relevan dimulai dengan AWS ParallelCluster versi 3.3.0.
Untuk versi yang AWS ParallelCluster didukung sebelum 3.3.0:
Ketika
UseEc2Hostnames
diatur ketrue
, file konfigurasi Slurm diatur dengan skrip AWS ParallelClusterprolog
danepilog
:-
prolog
berjalan untuk menambahkan info node ke/etc/hosts
node komputasi ketika setiap pekerjaan dialokasikan. -
epilog
berjalan untuk membersihkan konten yang ditulis olehprolog
.
Untuk menambahkan kustom
prolog
atauepilog
skrip, tambahkan masing-masing ke/opt/slurm/etc/pcluster/epilog.d/
folder/opt/slurm/etc/pcluster/prolog.d/
atau.Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.
-