Bagian Scheduling - AWS ParallelCluster

Schedulingproperti AwsBatchQueues SlurmQueues SlurmSettings

Bagian `Scheduling`

(Wajib) Mendefinisikan penjadwal pekerjaan yang digunakan dalam klaster dan contoh komputasi yang dikelola oleh penjadwal pekerjaan. Anda juga dapat menggunakan Slurm atau AWS Batch penjadwal. Masing-masing mendukung serangkaian pengaturan dan properti yang berbeda.


Scheduling:
  Scheduler: slurm
  ScalingStrategy: string    
  SlurmSettings:
    MungeKeySecretArn: string        
    ScaledownIdletime: integer    
    QueueUpdateStrategy: string
    EnableMemoryBasedScheduling: boolean
    CustomSlurmSettings: [dict]
    CustomSlurmSettingsIncludeFile: string
    Database:
      Uri: string
      UserName: string
      PasswordSecretArn: string
      DatabaseName: string    
    ExternalSlurmdbd: boolean
      Host: string
      Port: integer  
    Dns:
      DisableManagedDns: boolean
      HostedZoneId: string
      UseEc2Hostnames: boolean  
  SlurmQueues:
    - Name: string  
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: integer
            Encrypted: boolean
            VolumeType: string
            Iops: integer
            Throughput: integer
          EphemeralVolume:
            MountDir: string
      CapacityReservationTarget:
        CapacityReservationId: string
        CapacityReservationResourceGroupArn: string
      CapacityType: string
      AllocationStrategy: string
      JobExclusiveAllocation: boolean
      CustomSlurmSettings: dict
      Tags:
        - Key: string
          Value: string
      HealthChecks:
        Gpu:
          Enabled: boolean
      Networking:
        SubnetIds:
          - string
        AssignPublicIp: boolean
        SecurityGroups:
          - string
        AdditionalSecurityGroups:
          - string
        PlacementGroup:
          Enabled: boolean
          Id: string
          Name: string
        Proxy:
          HttpProxyAddress: string
      ComputeResources:
        - Name: string
          InstanceType: string
          Instances:
            - InstanceType: string
          MinCount: integer
          MaxCount: integer
          DynamicNodePriority: integer
          StaticNodePriority: integer
          SpotPrice: float
          DisableSimultaneousMultithreading: boolean
          SchedulableMemory: integer
          HealthChecks:
            Gpu:
              Enabled: boolean
          Efa:
            Enabled: boolean
            GdrSupport: boolean          
          CapacityReservationTarget:
            CapacityReservationId: string
            CapacityReservationResourceGroupArn: string
          Networking:   
            PlacementGroup:
              Enabled: boolean
              Name: string
          CustomSlurmSettings: dict
          Tags:
            - Key: string
              Value: string      
      CustomActions:
        OnNodeStart:
          Sequence:
            - Script: string
              Args:
                - string
          Script: string
          Args:
            - string
        OnNodeConfigured:
          Sequence:
            - Script: string
              Args:
                - string
          Script: string
          Args:
            - string
      Iam:
        InstanceProfile: string
        InstanceRole: string
        S3Access:
          - BucketName: string
            EnableWriteAccess: boolean
            KeyName: string
        AdditionalIamPolicies:
          - Policy: string
      Image:
        CustomAmi: string


Scheduling:
  Scheduler: awsbatch
  AwsBatchQueues:
    - Name: string
      CapacityType: string
      Networking:
        SubnetIds:
          - string
        AssignPublicIp: boolean
        SecurityGroups:
          - string
        AdditionalSecurityGroups:
          - string
      ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
        - Name: string
          InstanceTypes:
            - string
          MinvCpus: integer
          DesiredvCpus: integer
          MaxvCpus: integer
          SpotBidPercentage: float

`Scheduling`properti

Scheduler(Diperlukan,String)

Menentukan jenis scheduler yang digunakan. Nilai yang didukung adalah slurm dan awsbatch.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

catatan

awsbatchhanya mendukung sistem alinux2 operasi dan x86_64 platform.

ScalingStrategy(Opsional,String)

Memungkinkan Anda memilih seberapa dinamis Slurm skala node naik. Nilai yang didukung adalahall-or-nothing, greedy-all-or-nothing dan best-effort Nilai default adalahall-or-nothing.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

Strategi penskalaan hanya berlaku untuk node yang akan dilanjutkan oleh Slurm, bukan untuk node yang akhirnya sudah berjalan.

all-or-nothingStrategi ini secara ketat mengikuti all-or-nothing-approach, yang bertujuan menghindari instance idle di akhir proses penskalaan. Ini beroperasi atas all-or-nothing dasar, yang berarti dapat ditingkatkan sepenuhnya atau tidak sama sekali. Ketahuilah bahwa mungkin ada biaya tambahan karena instans yang diluncurkan sementara, ketika pekerjaan membutuhkan lebih dari 500 node atau menjangkau beberapa sumber daya komputasi. Strategi ini memiliki throughput terendah di antara tiga Strategi Penskalaan yang mungkin. Waktu penskalaan tergantung pada jumlah pekerjaan yang dikirimkan per Slurm melanjutkan eksekusi program. Selain itu, Anda tidak dapat menskalakan jauh melampaui batas akun RunInstances sumber daya default per eksekusi, yaitu 1000 instance secara default. Detail selengkapnya dapat ditemukan di dokumentasi pelambatan Amazon EC2 API
greedy-all-or-nothing Mirip dengan all-or-nothing strategi, ini bertujuan untuk menghindari instance idle pasca-penskalaan. Strategi ini memungkinkan penskalaan berlebih sementara selama proses penskalaan untuk mencapai throughput yang lebih tinggi daripada all-or-nothing pendekatan tetapi juga dilengkapi dengan batas penskalaan yang sama yaitu 1000 instance sesuai batas akun sumber daya. RunInstances
best-effort Strategi ini memprioritaskan throughput yang tinggi, bahkan jika itu berarti bahwa beberapa contoh mungkin menganggur di akhir proses penskalaan. Ini mencoba untuk mengalokasikan node sebanyak yang diminta oleh pekerjaan, tetapi ada kemungkinan tidak memenuhi seluruh permintaan. Berbeda dengan strategi lainnya, pendekatan upaya terbaik dapat mengakumulasi lebih banyak contoh daripada RunInstances batas standar, dengan biaya memiliki sumber daya yang menganggur di sepanjang eksekusi proses penskalaan ganda.

Setiap strategi dirancang untuk memenuhi kebutuhan penskalaan yang berbeda, memungkinkan Anda memilih salah satu yang memenuhi persyaratan dan kendala spesifik Anda.

`AwsBatchQueues`

(Opsional) Pengaturan AWS Batch antrian. Hanya satu antrian yang didukung. Jika Schedulerdiatur keawsbatch, bagian ini diperlukan. Untuk informasi selengkapnya tentang awsbatch penjadwal, lihat penyiapan jaringan danMenggunakan AWS Batch (awsbatch) scheduler dengan AWS ParallelCluster.


AwsBatchQueues:
  - Name: string
    CapacityType: string
    Networking:
      SubnetIds:
        - string
      AssignPublicIp: boolean
      SecurityGroups:
        - string
      AdditionalSecurityGroups:
        - string
    ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
      - Name: string
        InstanceTypes:
          - string
        MinvCpus: integer
        DesiredvCpus: integer
        MaxvCpus: integer
        SpotBidPercentage: float

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`AwsBatchQueues`properti

Name(Diperlukan,String)

Nama AWS Batch antrian.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

CapacityType(Opsional,String)

Jenis sumber daya komputasi yang digunakan AWS Batch antrian. Nilai yang didukung adalahONDEMAND, SPOT atauCAPACITY_BLOCK. Nilai default-nya adalah ONDEMAND.

catatan

Jika disetel CapacityType keSPOT, akun Anda harus berisi peran AWSServiceRoleForEC2Spot terkait layanan. Anda dapat membuat peran ini menggunakan AWS CLI perintah berikut.


$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Untuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

`Networking`

(Wajib) Mendefinisikan konfigurasi jaringan untuk AWS Batch antrian.


Networking:
  SubnetIds:
    - string
  AssignPublicIp: boolean
  SecurityGroups:
    - string
  AdditionalSecurityGroups:
    - string

`Networking`properti

SubnetIds(Diperlukan,[String])

Menentukan ID dari subnet yang ada untuk menyediakan AWS Batch antrian di. Saat ini hanya satu subnet yang didukung.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

AssignPublicIp(Opsional,String)

Membuat atau menetapkan alamat IP publik ke node dalam AWS Batch antrian. Nilai yang didukung adalah true dan false. Default tergantung pada subnet yang Anda tentukan.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

SecurityGroups(Opsional,[String])

Daftar grup keamanan yang digunakan AWS Batch antrian. Jika Anda tidak menentukan grup keamanan, AWS ParallelCluster buat grup keamanan baru.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalSecurityGroups(Opsional,[String])

Daftar grup keamanan yang digunakan AWS Batch antrian.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`ComputeResources`

(Wajib) Mendefinisikan ComputeResources konfigurasi untuk AWS Batch antrian.


ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
  - Name: string
    InstanceTypes:
      - string
    MinvCpus: integer
    DesiredvCpus: integer
    MaxvCpus: integer
    SpotBidPercentage: float

`ComputeResources`properti

Name(Diperlukan,String)

Nama lingkungan komputasi AWS Batch antrian.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

InstanceTypes(Diperlukan,[String])

Array lingkungan AWS Batch komputasi dari tipe instance. Semua tipe instance harus menggunakan x86_64 arsitektur.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MinvCpus(Opsional,Integer)

Jumlah minimum VCPUs yang dapat digunakan oleh lingkungan AWS Batch komputasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

DesiredVcpus(Opsional,Integer)

Jumlah yang diinginkan dari VCPUs dalam lingkungan AWS Batch komputasi. AWS Batch menyesuaikan nilai ini antara MinvCpus dan MaxvCpus berdasarkan permintaan dalam antrian pekerjaan.

Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.

MaxvCpus(Opsional,Integer)

Jumlah maksimum VCPUs untuk lingkungan AWS Batch komputasi. Anda tidak dapat mengatur ini ke nilai yang lebih rendah dariDesiredVcpus.

Kebijakan pembaruan: Pengaturan ini tidak dapat dikurangi selama pembaruan.

SpotBidPercentage(Opsional,Float)

Persentase maksimum harga On-Demand untuk jenis instans yang dapat dicapai oleh harga Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai default adalah 100 (100%). Rentang yang didukung adalah 1 -100.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`SlurmQueues`

(Opsional) Pengaturan untuk Slurm antrian. Jika Schedulerdiatur keslurm, bagian ini diperlukan.


SlurmQueues:
  - Name: string
    ComputeSettings:
      LocalStorage:
        RootVolume:
          Size: integer
          Encrypted: boolean
          VolumeType: string
          Iops: integer
          Throughput: integer
        EphemeralVolume:
          MountDir: string
    CapacityReservationTarget:
      CapacityReservationId: string
      CapacityReservationResourceGroupArn: string
    CapacityType: string
    AllocationStrategy: string
    JobExclusiveAllocation: boolean
    CustomSlurmSettings: dict
    Tags:
      - Key: string
        Value: string
    HealthChecks:
      Gpu:
        Enabled: boolean
    Networking:
      SubnetIds:
        - string
      AssignPublicIp: boolean
      SecurityGroups:
        - string
      AdditionalSecurityGroups:
        - string
      PlacementGroup:
        Enabled: boolean
        Id: string
        Name: string
      Proxy:
        HttpProxyAddress: string
    ComputeResources:
      - Name: string
        InstanceType: string
        Instances:
          - InstanceType: string        
        MinCount: integer
        MaxCount: integer
        DynamicNodePriority: integer
        StaticNodePriority: integer
        SpotPrice: float
        DisableSimultaneousMultithreading: boolean
        SchedulableMemory: integer
        HealthChecks:
          Gpu:
            Enabled: boolean
        Efa:
          Enabled: boolean
          GdrSupport: boolean    
        CapacityReservationTarget:
          CapacityReservationId: string
          CapacityReservationResourceGroupArn: string     
        Networking:   
          PlacementGroup:
            Enabled: boolean
            Name: string
        CustomSlurmSettings: dict
        Tags:
          - Key: string
            Value: string
    CustomActions:
      OnNodeStart:
        Sequence:
          - Script: string
            Args:
              - string
        Script: string
        Args:
          - string
      OnNodeConfigured:
        Sequence:
          - Script: string
            Args:
              - string        
        Script: string
        Args:
          - string
    Iam:
      InstanceProfile: string
      InstanceRole: string
      S3Access:
        - BucketName: string
          EnableWriteAccess: boolean
          KeyName: string
      AdditionalIamPolicies:
        - Policy: string
    Image:
      CustomAmi: string

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

`SlurmQueues`properti

Name(Diperlukan,String)

Nama dari Slurm antrian.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

CapacityReservationTarget

catatan

CapacityReservationTargetditambahkan dengan AWS ParallelCluster versi 3.3.0.


CapacityReservationTarget:
   CapacityReservationId: string
   CapacityReservationResourceGroupArn: string

Menentukan reservasi kapasitas Sesuai Permintaan untuk sumber daya komputasi antrian.

CapacityReservationId(Opsional,String)

ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. ID dapat merujuk ke ODCR atau Blok Kapasitas untuk ML.

Reservasi harus menggunakan platform yang sama dengan yang digunakan instans. Misalnya, jika instans Anda berjalanrhel8, reservasi kapasitas Anda harus berjalan di platform Red Hat Enterprise Linux. Untuk informasi selengkapnya, lihat Platform yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux.

catatan

Jika Anda menyertakan Instancesdalam konfigurasi cluster, Anda harus mengecualikan CapacityReservationId pengaturan tingkat antrian ini dari konfigurasi.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityReservationResourceGroupArn(Opsional,String)

Nama Sumber Daya Amazon (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas terkait layanan untuk sumber daya komputasi antrian. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari kelompok sumber daya berdasarkan kondisi berikut:

Jika PlacementGroup diaktifkan di SlurmQueues/Networkingatau/SlurmQueuesComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang menargetkan jenis instance dan PlacementGroup untuk sumber daya komputasi, jika sumber daya komputasi ada.

PlacementGroupHarus menargetkan salah satu jenis instance yang didefinisikan dalam ComputeResources.
Jika PlacementGroup tidak diaktifkan di SlurmQueues/Networkingatau/SlurmQueuesComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang hanya menargetkan jenis instance sumber daya komputasi, jika sumber daya komputasi ada.

Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instans yang dicadangkan di Availability Zone di semua sumber daya komputasi dan Availability Zone antrean. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan (ODCR).

Untuk informasi selengkapnya tentang beberapa persyaratan konfigurasi subnet, lihat Networking/SubnetIds.

catatan

Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityType(Opsional,String)

Jenis sumber daya komputasi yang Slurm antrian menggunakan. Nilai yang didukung adalahONDEMAND, SPOT atauCAPACITY_BLOCK. Nilai default-nya adalah ONDEMAND.

catatan

Jika Anda menyetel CapacityType keSPOT, akun Anda harus memiliki peran AWSServiceRoleForEC2Spot terkait layanan. Anda dapat membuat peran ini dengan menggunakan AWS CLI perintah berikut.


$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Untuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan EC2 Pengguna Amazon Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

AllocationStrategy(Opsional,String)

Tentukan strategi alokasi untuk semua sumber daya komputasi yang ditentukan dalam. Instances

Nilai yang valid: lowest-price | capacity-optimized | price-capacity-optimized

Default: lowest-price

lowest-price

Jika Anda menggunakannyaCapacityType = ONDEMAND, Amazon EC2 Fleet menggunakan harga untuk menentukan pesanan dan meluncurkan instans harga terendah terlebih dahulu.
Jika Anda menggunakannyaCapacityType = SPOT, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Jika kolam kehabisan kapasitas sebelum memenuhi kapasitas yang Anda butuhkan, Amazon EC2 Fleet memenuhi permintaan Anda dengan meluncurkan instans untuk Anda. Secara khusus, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot harga terendah yang memiliki kapasitas yang tersedia. Amazon EC2 Fleet mungkin meluncurkan Instans Spot dari beberapa kumpulan yang berbeda.
Jika Anda mengaturCapacityType = CAPACITY_BLOCK, tidak ada strategi alokasi, sehingga AllocationStrategy parameter tidak dapat dikonfigurasi.

capacity-optimized

Jika Anda mengaturCapacityType = ONDEMAND, capacity-optimized tidak tersedia.
Jika disetelCapacityType = SPOT, Amazon EC2 Fleet meluncurkan instans dari kumpulan Instans Spot dengan kapasitas optimal untuk jumlah instans yang akan diluncurkan.

price-capacity-optimized

Jika Anda mengaturCapacityType = ONDEMAND, capacity-optimized tidak tersedia.
Jika Anda menyetelCapacityType = SPOT, Amazon EC2 Fleet mengidentifikasi kumpulan dengan ketersediaan kapasitas tertinggi untuk jumlah instans yang diluncurkan. Hal ini berarti bahwa kami akan meminta Instans Spot dari kolam yang kami yakini memiliki peluang interupsi terendah dalam waktu dekat. Amazon EC2 Fleet kemudian meminta Instans Spot dari harga terendah dari kumpulan ini.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

AllocationStrategydidukung mulai AWS ParallelCluster versi 3.3.0.

JobExclusiveAllocation(Opsional,String)

Jika diatur ketrue, Slurm OverSubscribebendera partisi diatur keEXCLUSIVE. Ketika OverSubscribe =EXCLUSIVE, pekerjaan di partisi memiliki akses eksklusif ke semua node yang dialokasikan. Untuk informasi lebih lanjut, lihat EKSKLUSIF di Slurm dokumentasi.

Nilai yang valid: true | false

Default: false

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

JobExclusiveAllocationdidukung mulai AWS ParallelCluster versi 3.7.0.

CustomSlurmSettings(Opsional,Dict)

Mendefinisikan kustom Slurm pengaturan konfigurasi partisi (antrian).

Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk antrian (partisi).

Setiap pasangan kunci-nilai yang terpisahParam1: Value1, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi partisi dalam formatParam1=Value1.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettings Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakan Slurm parameter konfigurasi untuk CustomSlurmSettings.

AWS ParallelCluster hanya memeriksa apakah parameter ada dalam daftar penolakan. AWS ParallelCluster tidak memvalidasi kustom Anda Slurm sintaks parameter konfigurasi atau semantik. Anda bertanggung jawab untuk memvalidasi kebiasaan Anda Slurm parameter konfigurasi. Kustom tidak valid Slurm parameter konfigurasi dapat menyebabkan Slurm kegagalan daemon yang dapat menyebabkan kegagalan pembuatan dan pembaruan cluster.

Untuk informasi selengkapnya tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurm kustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

Tags(Opsional, [String])

Daftar pasangan nilai kunci tag. ComputeResourcetag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau diSlurmQueues/. Tags

Key(Opsional,String): Kunci tanda.
Value(Opsional,String): Nilai tanda.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HealthChecks(Opsional)

Tentukan pemeriksaan kesehatan node komputasi pada semua sumber daya komputasi dalam antrian.

Gpu(Opsional)

Tentukan pemeriksaan kesehatan GPU pada semua sumber daya komputasi dalam antrian.

catatan

AWS ParallelCluster tidak mendukungHealthChecks/Gpudi node yang menggunakan sistem operasi alinux2 ARM. Platform ini tidak mendukung NVIDIA Data Center GPU Manager (DCGM).

Enabled(Opsional,Boolean): Apakah AWS ParallelCluster melakukan pemeriksaan kesehatan GPU pada node komputasi. Default-nya adalah false.

`Gpu`perilaku pemeriksaan kesehatan

JikaGpu/Enableddisetel ketrue, AWS ParallelCluster melakukan pemeriksaan kesehatan GPU pada sumber daya komputasi dalam antrian.
Pemeriksaan Gpu kesehatan melakukan pemeriksaan kesehatan GPU pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan GPU yang terdegradasi.
Jika node komputasi gagal dalam pemeriksaan Gpu kesehatan, status node komputasi berubah menjadi. DRAIN Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis.
Durasi pemeriksaan Gpu kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaan Gpu kesehatan (setara dengan jumlah target GPU pekerjaan). Misalnya dengan 8 GPUs, durasi tipikal kurang dari 3 menit.
Jika pemeriksaan Gpu kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memiliki GPU, atau, jika instance memiliki GPU, tetapi itu bukan GPU NVIDIA, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs yang didukung.
Pemeriksaan Gpu kesehatan menggunakan dcgmi alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:

Ketika pemeriksaan Gpu kesehatan dimulai di simpul:
1. Ini mendeteksi apakah nvidia-dcgm dan nvidia-fabricmanager layanan berjalan.
2. Jika layanan ini tidak berjalan, pemeriksaan Gpu kesehatan memulainya.
3. Ini mendeteksi apakah mode persistensi diaktifkan.
4. Jika mode persistensi tidak diaktifkan, pemeriksaan Gpu kesehatan mengaktifkannya.
Pada akhir pemeriksaan kesehatan, pemeriksaan Gpu kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal.
Jika pekerjaan ditetapkan ke satu set node tertentu GPUs, pemeriksaan Gpu kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaan Gpu kesehatan berjalan pada semua GPUs di node.
Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan Gpu kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan node GPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini.
Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam /var/log/parallelcluster/slurm_health_check.log file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:
- Detail tentang tindakan yang dijalankan oleh pemeriksaan Gpu kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi.
- Pengidentifikasi GPU, ID serial, dan UUID.
- Output pemeriksaan kesehatan.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

HealthChecksdidukung mulai AWS ParallelCluster versi 3.6.0.

`Networking`

(Wajib) Mendefinisikan konfigurasi jaringan untuk Slurm antrian.


Networking:
  SubnetIds:
    - string
  AssignPublicIp: boolean
  SecurityGroups:
    - string
  AdditionalSecurityGroups:
    - string
  PlacementGroup:
    Enabled: boolean
    Id: string
    Name: string
  Proxy:
    HttpProxyAddress: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`Networking`properti

SubnetIds(Diperlukan,[String])

Subnet yang ada yang Anda berikan IDs Slurm antrian di.

Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/InstanceType, Anda hanya dapat menentukan satu subnet.

Jika Anda mengonfigurasi jenis instance di SlurmQueues/ComputeResources/Instances, Anda dapat menentukan subnet tunggal atau beberapa subnet.

Jika Anda menggunakan beberapa subnet, semua subnet yang ditentukan untuk antrian harus berada dalam VPC yang sama, dengan setiap subnet di Availability Zone (AZ) terpisah.

Misalnya, Anda mendefinisikan subnet-1 dan subnet-2 untuk antrian Anda.

subnet-1dan tidak subnet-2 bisa keduanya berada di AZ-1.

subnet-1bisa di AZ-1 dan subnet-2 bisa di AZ-2.

Jika Anda mengonfigurasi hanya satu jenis instans dan ingin menggunakan beberapa subnet, tentukan jenis instans Anda sebagai Instances pengganti. InstanceType

Misalnya, definisikanComputeResources/Instances/InstanceType= instance.type bukannyaComputeResources/InstanceType=instance.type.

catatan

Elastic Fabric Adapter (EFA) tidak didukung pada zona ketersediaan yang berbeda.

Penggunaan beberapa Availability Zone dapat menyebabkan peningkatan latensi jaringan penyimpanan dan menambahkan biaya transfer data antar-AZ. Misalnya, ini dapat terjadi ketika sebuah instance mengakses penyimpanan file yang terletak di AZ yang berbeda. Untuk informasi selengkapnya, lihat Transfer Data dalam hal yang sama Wilayah AWS.

Pembaruan cluster untuk mengubah dari penggunaan subnet tunggal ke beberapa subnet:

Misalkan definisi subnet dari sebuah cluster didefinisikan dengan subnet tunggal dan AWS ParallelCluster dikelola FSx untuk sistem file Lustre. Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan cluster, Anda harus terlebih dahulu mengubah sistem file terkelola ke sistem file eksternal. Untuk informasi selengkapnya, lihat Ubah penyimpanan AWS ParallelCluster terkelola ke penyimpanan eksternal.
Misalkan definisi subnet cluster didefinisikan dengan subnet tunggal dan sistem file Amazon EFS eksternal jika target pemasangan EFS tidak ada untuk semua subnet yang ditentukan untuk ditambahkan. AZs Kemudian, Anda tidak dapat memperbarui cluster ini dengan definisi subnet ID yang diperbarui secara langsung. Untuk membuat pembaruan kluster atau membuat cluster, Anda harus terlebih dahulu membuat semua target pemasangan untuk semua subnet yang ditentukan AZs untuk beberapa subnet yang ditentukan.

Availability Zone dan reservasi kapasitas cluster didefinisikan dalam CapacityReservationResourceGroupArn:

Anda tidak dapat membuat klaster jika tidak ada tumpang tindih antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian.
Anda dapat membuat klaster jika ada tumpang tindih sebagian antara kumpulan tipe instans dan zona ketersediaan yang dicakup oleh grup sumber daya reservasi kapasitas yang ditentukan dan kumpulan tipe instans dan zona ketersediaan yang ditentukan untuk antrian. AWS ParallelCluster mengirim pesan peringatan tentang tumpang tindih sebagian untuk kasus ini.
Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan (ODCR).

catatan

Beberapa Availability Zones ditambahkan dalam AWS ParallelCluster versi 3.4.0.

Awas

Peringatan ini berlaku untuk semua versi 3.xy sebelum AWS ParallelCluster versi 3.3.1. AWS ParallelCluster versi 3.3.1 tidak terpengaruh jika parameter ini diubah.

Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.1:

Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Sebelum Anda melanjutkan, pastikan Anda mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSx untuk Lustre.

Jika nilai subnet baru ditambahkan, Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Jika nilai subnet dihapus, Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

AssignPublicIp(Opsional,String)

Membuat atau menetapkan alamat IP publik ke node di Slurm antrian. Nilai yang didukung adalah true dan false. Subnet yang Anda tentukan menentukan nilai default. Subnet dengan IPs default publik untuk menetapkan alamat IP publik.

Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus mengatur HeadNode/Networking/ElasticIptrueuntuk menyediakan akses publik. AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk kasus ini, kami menyarankan Anda menggunakan gateway NAT untuk menyediakan akses publik ke node komputasi cluster. Dalam hal ini, atur AssignPublicIp kefalse. Untuk informasi selengkapnya tentang alamat IP, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

SecurityGroups(Opsional,[String])

Daftar kelompok keamanan yang akan digunakan untuk Slurm antrian. Jika tidak ada grup keamanan yang ditentukan, AWS ParallelCluster buat grup keamanan untuk Anda.

Verifikasi bahwa grup keamanan dikonfigurasi dengan benar untuk SharedStoragesistem Anda.

Awas

Peringatan ini berlaku untuk semua 3. x. y AWS ParallelCluster versi sebelum versi 3.3.0. AWS ParallelCluster versi 3.3.0 tidak terpengaruh jika parameter ini diubah.

Untuk AWS ParallelCluster 3 versi sebelum versi 3.3.0:

Mengubah parameter ini dan memperbarui cluster membuat sistem file Lustre dikelola FSx baru dan menghapus sistem file Lustre yang dikelola FSx yang ada tanpa melestarikan data yang ada. Hal ini mengakibatkan hilangnya data. Pastikan untuk mencadangkan data dari yang ada FSx untuk sistem file Lustre jika Anda ingin menyimpan data. Untuk informasi selengkapnya, lihat Bekerja dengan cadangan di Panduan Pengguna FSx untuk Lustre.

Awas

Jika Anda mengaktifkan EFA untuk instans komputasi, pastikan instans berkemampuan EFA Anda adalah anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalSecurityGroups(Opsional,[String])

Daftar grup keamanan tambahan yang akan digunakan untuk Slurm antrian.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

PlacementGroup(Opsional)

Menentukan pengaturan grup penempatan untuk Slurm antrian.


PlacementGroup:
  Enabled: boolean
  Id: string
  Name: string

Kebijakan pembaruan: Semua node komputasi harus dihentikan untuk penghapusan grup penempatan terkelola. Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Enabled(Opsional,Boolean)

Menunjukkan apakah grup penempatan digunakan untuk Slurm antrian. Default-nya adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Id(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada yang Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Name(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada yang Slurm antrian menggunakan. Pastikan untuk memberikan nama grup penempatan dan bukan ID.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

JikaPlacementGroup/Enableddisetel ketrue, tanpa Name atau Id didefinisikan, setiap sumber daya komputasi ditetapkan grup penempatan terkelolanya sendiri, kecuali ComputeResources/Networking/PlacementGroupdidefinisikan untuk mengganti setelan ini.
Dimulai dengan AWS ParallelCluster versi 3.3.0, SlurmQueuesNetworking/PlacementGroup//Nameditambahkan sebagai alternatif yang disukai untuk SlurmQueues//NetworkingPlacementGroup/Id.

PlacementGroup/Iddan PlacementGroup/Namesetara. Anda dapat menggunakan salah satunya.

Jika Anda menyertakan keduanya PlacementGroup/Iddan PlacementGroup/Name, AWS ParallelCluster gagal. Anda hanya dapat memilih satu atau yang lain.

Anda tidak perlu memperbarui cluster Anda untuk menggunakan PlacementGroup/Name.

Proxy(Opsional)

Menentukan pengaturan proxy untuk Slurm antrian.


Proxy:
  HttpProxyAddress: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HttpProxyAddress(Opsional,String)

Mendefinisikan server proxy HTTP atau HTTPS untuk Slurm antrian. Biasanya, ituhttps://x.x.x.x:8080.

Tidak ada nilai default.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`Image`

(Opsional) Menentukan gambar yang akan digunakan untuk Slurm antrian. Untuk menggunakan AMI yang sama untuk semua node, gunakan CustomAmipengaturan di Imagebagian.


Image:
  CustomAmi: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`Image`Properti

CustomAmi(Opsional,String)

AMI yang akan digunakan untuk Slurm antrian bukan default AMIs. Anda dapat menggunakan pcluster Perintah CLI untuk melihat daftar default. AMIs

catatan

AMI harus didasarkan pada sistem operasi yang sama yang digunakan oleh node kepala.


pcluster list-official-images

Jika AMI kustom memerlukan izin tambahan untuk peluncurannya, Anda harus menambahkan izin ini ke kebijakan node kepala.

Misalnya, jika AMI kustom memiliki snapshot terenkripsi yang terkait dengannya, kebijakan tambahan berikut diperlukan dalam kebijakan simpul kepala.


{
   "Version": "2012-10-17",
   "Statement": [
       {
           "Effect": "Allow",
           "Action": [
               "kms:DescribeKey",
               "kms:ReEncrypt*",
               "kms:CreateGrant",
               "kms:Decrypt"
           ],
           "Resource": [
               "arn:aws:kms:<AWS_REGION>:<AWS_ACCOUNT_ID>:key/<AWS_KMS_KEY_ID>"
           ]                                                    
       }
   ]
}

Untuk memecahkan masalah peringatan validasi AMI kustom, lihat. Memecahkan masalah AMI khusus

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`ComputeResources`

(Wajib) Mendefinisikan ComputeResources konfigurasi untuk Slurm antrian.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster


ComputeResources:
  - Name: string
    InstanceType: string
    Instances:
      - InstanceType: string    
    MinCount: integer
    MaxCount: integer
    DynamicNodePriority: integer
    StaticNodePriority: integer
    SpotPrice: float
    DisableSimultaneousMultithreading: boolean
    SchedulableMemory: integer
    HealthChecks:
      Gpu:    
        Enabled: boolean
    Efa:
      Enabled: boolean
      GdrSupport: boolean
    CapacityReservationTarget:
      CapacityReservationId: string
      CapacityReservationResourceGroupArn: string
    Networking:   
      PlacementGroup:
        Enabled: boolean
        Name: string
    CustomSlurmSettings: dict   
    Tags:
      - Key: string
        Value: string

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

`ComputeResources`properti

Name(Diperlukan,String)

Nama dari Slurm lingkungan komputasi antrian. Nama dapat memiliki hingga 25 karakter.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

InstanceType(Diperlukan,String)

Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama. Contoh dapat menggunakan arm64 arsitektur x86_64 atau.

Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instance. Jika keduanya didefinisikan, AWS ParallelCluster gagal.

Ketika Anda mendefinisikanInstanceType, Anda tidak dapat mendefinisikan beberapa subnet. Jika Anda mengonfigurasi hanya satu jenis instance dan ingin menggunakan beberapa subnet, tentukan tipe instans Anda Instances daripada diInstanceType. Untuk informasi lebih lanjut, lihat Networking/SubnetIds.

Jika Anda mendefinisikan p4d atau hpc6id jenis instance, atau jenis instance lain yang memiliki beberapa antarmuka jaringan atau kartu antarmuka jaringan, Anda harus meluncurkan instance komputasi di subnet pribadi seperti yang dijelaskan dalam. AWS ParallelCluster menggunakan dua subnet AWS public hanya IPs dapat ditugaskan ke instance yang diluncurkan dengan antarmuka jaringan tunggal. Untuk informasi selengkapnya, lihat Menetapkan IPv4 alamat publik selama peluncuran instans di Panduan EC2 Pengguna Amazon untuk Instans Linux.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

Instances(Diperlukan)

Menentukan daftar jenis contoh untuk sumber daya komputasi. Untuk menentukan strategi alokasi untuk daftar jenis instance, lihat AllocationStrategy.

Konfigurasi cluster harus mendefinisikan salah satu InstanceTypeatau Instances. Jika keduanya didefinisikan, AWS ParallelCluster gagal.

Untuk informasi selengkapnya, lihat Beberapa alokasi tipe instans dengan Slurm.


Instances:
   - InstanceType: string

catatan

Dimulai dengan AWS ParallelCluster versi 3.7.0, EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6. x, tidak EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Kebijakan pembaruan: Untuk pengaturan nilai daftar ini, nilai baru dapat ditambahkan selama pembaruan atau armada komputasi harus dihentikan saat menghapus nilai yang ada.

InstanceType(Diperlukan,String)

Jenis instance yang digunakan dalam hal ini Slurm menghitung sumber daya. Semua jenis instance dalam cluster harus menggunakan arsitektur prosesor yang sama, baik x86_64 atauarm64.

Jenis instance yang tercantum di Instancesharus memiliki:

Jumlah v yang samaCPUs, atau, jika DisableSimultaneousMultithreadingdiatur ketrue, jumlah inti yang sama.
Jumlah akselerator yang sama dari produsen yang sama.
EFA didukung, jika Efa/Enableddiatur ketrue.

Jenis instance yang tercantum dalam Instancesdapat memiliki:

Jumlah memori yang berbeda.

Dalam hal ini, memori minimum harus ditetapkan sebagai bahan habis pakai Slurm sumber daya.

catatan
Dimulai dengan AWS ParallelCluster versi 3.7.0, EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.
Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6. x, tidak EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.
Kartu jaringan yang berbeda.

Dalam hal ini, jumlah antarmuka jaringan yang dikonfigurasi untuk sumber daya komputasi ditentukan oleh jenis instance dengan jumlah kartu jaringan terkecil.
Bandwidth jaringan yang berbeda.
Ukuran toko instance yang berbeda.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

catatan

Instancesdidukung dimulai dengan AWS ParallelCluster versi 3.3.0.

MinCount(Opsional,Integer)

Jumlah minimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 0.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MaxCount(Opsional,Integer)

Jumlah maksimum contoh yang Slurm menghitung penggunaan sumber daya. Default-nya adalah 10.

Saat menggunakanCapacityType = CAPACITY_BLOCK, MaxCount harus sama dengan MinCount dan lebih besar dari 0, karena semua instance bagian dari reservasi Blok Kapasitas dikelola sebagai node statis.

Pada waktu pembuatan cluster, head node menunggu semua node statis siap sebelum menandakan keberhasilan pembuatan cluster. Namun, saat menggunakanCapacityType = CAPACITY_BLOCK, bagian node dari sumber daya komputasi yang terkait dengan Blok Kapasitas tidak akan dipertimbangkan untuk pemeriksaan ini. Cluster akan dibuat bahkan jika tidak semua Blok Kapasitas yang dikonfigurasi aktif.

catatan

Ukuran cluster dapat berubah selama pembaruan. Untuk informasi selengkapnya, lihat Ukuran dan pembaruan kapasitas cluster

DynamicNodePriority(Opsional,Integer)

Prioritas node dinamis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter Weightkonfigurasi node untuk node dinamis sumber daya komputasi. Nilai default-nya adalah 1000.

Slurm memprioritaskan node dengan Weight nilai terendah terlebih dahulu.

Awas

Penggunaan banyak Weight nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.

Dalam AWS ParallelCluster versi yang lebih awal dari versi 3.7.0, node statis dan dinamis diberi bobot default yang sama yaitu. 1 Dalam hal ini, Slurm mungkin memprioritaskan node dinamis idle daripada node statis idle karena skema penamaan untuk node statis dan dinamis. Ketika semua yang lain sama, Slurm menjadwalkan node menurut abjad dengan nama.

catatan

DynamicNodePriorityditambahkan dalam AWS ParallelCluster versi 3.7.0.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

StaticNodePriority(Opsional,Integer)

Prioritas node statis dalam sumber daya komputasi antrian. Peta prioritas ke Slurm parameter Weightkonfigurasi node untuk sumber daya komputasi node statis. Nilai default-nya adalah 1.

Slurm memprioritaskan node dengan Weight nilai terendah terlebih dahulu.

Awas

Penggunaan banyak Weight nilai yang berbeda dalam a Slurm partisi (antrian) mungkin memperlambat laju penjadwalan pekerjaan dalam antrian.

catatan

StaticNodePriorityditambahkan dalam AWS ParallelCluster versi 3.7.0.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

SpotPrice(Opsional,Float)

Harga maksimum yang dibayarkan untuk Instans EC2 Spot Amazon sebelum instans diluncurkan. Nilai default adalah harga On-Demand.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

DisableSimultaneousMultithreading(Opsional,Boolean)

Jikatrue, multithreading pada node di Slurm antrian dinonaktifkan. Nilai default-nya adalah false.

Tidak semua tipe instance dapat menonaktifkan multithreading. Untuk daftar jenis instans yang mendukung penonaktifan multithreading, lihat inti CPU dan thread untuk setiap inti CPU per jenis instans di Panduan Pengguna Amazon. EC2

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

SchedulableMemory(Opsional,Integer)

Jumlah memori di MiB yang dikonfigurasi di Slurm parameter RealMemory untuk node komputasi sumber daya komputasi. Nilai ini adalah batas atas untuk memori node yang tersedia untuk pekerjaan saat SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Nilai defaultnya adalah 95 persen memori yang terdaftar di Jenis EC2 Instance Amazon dan dikembalikan oleh Amazon EC2 API DescribeInstanceTypes. Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB.

Nilai yang didukung: 1-EC2Memory

EC2Memoryadalah memori (dalam MiB) yang terdaftar di Jenis EC2 Instance Amazon dan dikembalikan oleh Amazon EC2 API. DescribeInstanceTypes Pastikan untuk mengonversi nilai yang diberikan dalam GiB ke MiB.

Opsi ini paling relevan ketika SlurmSettings/EnableMemoryBasedSchedulingdiaktifkan. Untuk informasi selengkapnya, lihat Slurm penjadwalan berbasis memori.

catatan

SchedulableMemorydidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

Dimulai dengan versi 3.2.0, secara default, AWS ParallelCluster mengkonfigurasi RealMemory untuk Slurm menghitung node hingga 95 persen memori yang dikembalikan oleh Amazon EC2 APIDescribeInstanceTypes. Konfigurasi ini tidak tergantung pada nilaiEnableMemoryBasedScheduling.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

HealthChecks(Opsional)

Tentukan pemeriksaan kesehatan pada sumber daya komputasi.

Gpu(Opsional)

Tentukan pemeriksaan kesehatan GPU pada sumber daya komputasi.

Enabled(Opsional,Boolean): Apakah AWS ParallelCluster melakukan pemeriksaan kesehatan GPU saat menghitung sumber daya dalam antrian. Default-nya adalah false.

catatan
AWS ParallelCluster tidak mendukungHealthChecks/Gpudi node yang menggunakan sistem operasi alinux2 ARM. Platform ini tidak mendukung NVIDIA Data Center GPU Manager (DCGM).

`Gpu`perilaku pemeriksaan kesehatan

JikaGpu/Enableddisetel ketrue, AWS ParallelCluster lakukan pemeriksaan kesehatan GPU kesehatan pada sumber daya komputasi.
Pemeriksaan Gpu kesehatan melakukan pemeriksaan kesehatan pada sumber daya komputasi untuk mencegah pengajuan pekerjaan pada node dengan GPU terdegradasi.
Jika node komputasi gagal dalam pemeriksaan Gpu kesehatan, status node komputasi berubah menjadi. DRAIN Pekerjaan baru tidak dimulai pada node ini. Pekerjaan yang ada berjalan sampai selesai. Setelah semua pekerjaan berjalan selesai, node komputasi berakhir jika itu adalah node dinamis, dan diganti jika itu adalah node statis.
Durasi pemeriksaan Gpu kesehatan tergantung pada jenis instans yang dipilih, jumlah GPUs dalam instance, dan jumlah target pemeriksaan Gpu kesehatan (setara dengan jumlah target GPU pekerjaan). Misalnya dengan 8 GPUs, durasi tipikal kurang dari 3 menit.
Jika pemeriksaan Gpu kesehatan berjalan pada instance yang tidak didukung, itu keluar dan pekerjaan berjalan pada node komputasi. Misalnya, jika sebuah instance tidak memiliki GPU, atau, jika instance memiliki GPU, tetapi itu bukan GPU NVIDIA, pemeriksaan kesehatan keluar dan pekerjaan berjalan pada node komputasi. Hanya NVIDIA GPUs yang didukung.
Pemeriksaan Gpu kesehatan menggunakan dcgmi alat untuk melakukan pemeriksaan kesehatan pada node dan mengambil langkah-langkah berikut:

Ketika pemeriksaan Gpu kesehatan dimulai di simpul:
1. Ini mendeteksi apakah nvidia-dcgm dan nvidia-fabricmanager layanan berjalan.
2. Jika layanan ini tidak berjalan, pemeriksaan Gpu kesehatan memulainya.
3. Ini mendeteksi apakah mode persistensi diaktifkan.
4. Jika mode persistensi tidak diaktifkan, pemeriksaan Gpu kesehatan mengaktifkannya.
Pada akhir pemeriksaan kesehatan, pemeriksaan Gpu kesehatan mengembalikan layanan dan sumber daya ini ke keadaan awal.
Jika pekerjaan ditetapkan ke satu set node tertentu GPUs, pemeriksaan Gpu kesehatan hanya berjalan pada set tertentu. Jika tidak, pemeriksaan Gpu kesehatan berjalan pada semua GPUs di node.
Jika node komputasi menerima 2 atau lebih permintaan pemeriksaan Gpu kesehatan pada saat yang sama, hanya pemeriksaan kesehatan pertama yang berjalan dan yang lainnya dilewati. Ini juga berlaku untuk pemeriksaan kesehatan yang menargetkan node GPUs. Anda dapat memeriksa file log untuk informasi tambahan mengenai situasi ini.
Log pemeriksaan kesehatan untuk node komputasi tertentu tersedia dalam /var/log/parallelcluster/slurm_health_check.log file. File ini tersedia di Amazon CloudWatch, di grup CloudWatch log cluster, tempat Anda dapat menemukan:
- Detail tentang tindakan yang dijalankan oleh pemeriksaan Gpu kesehatan, termasuk mengaktifkan dan menonaktifkan layanan dan mode persistensi.
- Pengidentifikasi GPU, ID serial, dan UUID.
- Output pemeriksaan kesehatan.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

HealthChecksdidukung mulai AWS ParallelCluster versi 3.6.0.

Efa(Opsional)

Menentukan pengaturan Elastic Fabric Adapter (EFA) untuk node di Slurm antrian.


Efa:
  Enabled: boolean
  GdrSupport: boolean

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Enabled(Opsional,Boolean)

Menentukan bahwa Elastic Fabric Adapter (EFA) diaktifkan. Untuk melihat daftar EC2 instans Amazon yang mendukung EFA, lihat Jenis instans yang didukung di Panduan EC2 Pengguna Amazon untuk Instans Linux. Untuk informasi selengkapnya, lihat Elastic Fabric Adapter. Kami menyarankan Anda menggunakan cluster SlurmQueues/Networking/PlacementGroupuntuk meminimalkan latensi antar instance.

Nilai default-nya adalah false.

catatan

Elastic Fabric Adapter (EFA) tidak didukung pada zona ketersediaan yang berbeda. Untuk informasi selengkapnya, lihat SubnetIds.

Awas

Jika Anda mendefinisikan grup keamanan khusus SecurityGroups, pastikan instans berkemampuan EFA Anda adalah anggota grup keamanan yang memungkinkan semua lalu lintas masuk dan keluar ke dirinya sendiri.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

GdrSupport(Opsional,Boolean)

(Opsional) Dimulai dengan AWS ParallelCluster versi 3.0.2, pengaturan ini tidak berpengaruh. Dukungan Elastic Fabric Adapter (EFA) untuk GPUDirect RDMA (akses memori langsung jarak jauh) selalu diaktifkan jika didukung oleh tipe instans untuk Slurm menghitung sumber daya dan sistem operasi.

catatan

AWS ParallelCluster versi 3.0.0 hingga 3.0.1: Support untuk GPUDirect RDMA diaktifkan untuk Slurm menghitung sumber daya. Support untuk GPUDirect RDMA didukung oleh jenis instance tertentu (p4d.24xlarge) pada sistem operasi tertentu (Osisalinux2,ubuntu1804, atauubuntu2004). Nilai default adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

CapacityReservationTarget


CapacityReservationTarget:
   CapacityReservationId: string
   CapacityReservationResourceGroupArn: string

Menentukan reservasi kapasitas sesuai permintaan yang akan digunakan untuk sumber daya komputasi.

CapacityReservationId(Opsional,String)

ID reservasi kapasitas yang ada untuk menargetkan sumber daya komputasi antrian. Id dapat merujuk ke ODCR atau Blok Kapasitas untuk ML.

Ketika parameter ini ditentukan pada tingkat sumber daya komputasi, InstanceType adalah opsional, itu akan secara otomatis diambil dari reservasi.

CapacityReservationResourceGroupArn(Opsional,String)

Menunjukkan Nama Sumber Daya Amazon (ARN) dari grup sumber daya yang berfungsi sebagai grup reservasi kapasitas yang ditautkan layanan untuk sumber daya komputasi. AWS ParallelCluster mengidentifikasi dan menggunakan reservasi kapasitas yang paling tepat dari grup. Grup sumber daya harus memiliki setidaknya satu ODCR untuk setiap jenis instans yang terdaftar untuk sumber daya komputasi. Untuk informasi selengkapnya, lihat Luncurkan instans dengan Reservasi Kapasitas Sesuai Permintaan (ODCR).

Jika PlacementGroup diaktifkan di SlurmQueues/Networkingatau SlurmQueues/ComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang menargetkan jenis instance dan PlacementGroup untuk sumber daya komputasi jika ada.

PlacementGroupHarus menargetkan salah satu jenis instance yang didefinisikan dalam ComputeResources.
Jika PlacementGroup tidak diaktifkan di SlurmQueues/Networkingatau SlurmQueues/ComputeResources/Networking, AWS ParallelCluster pilih grup sumber daya yang hanya menargetkan jenis instance sumber daya komputasi, jika ada.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

CapacityReservationTargetditambahkan dengan AWS ParallelCluster versi 3.3.0.

Networking


Networking:   
  PlacementGroup:
    Enabled: boolean
    Name: string

PlacementGroup(Opsional)

Menentukan pengaturan grup penempatan untuk sumber daya komputasi.

Enabled(Opsional,Boolean)

Menunjukkan apakah grup penempatan digunakan untuk sumber daya komputasi.

Jika disetel ketrue, tanpa Name didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan terkelolanya sendiri, terlepas dari PlacementGrouppengaturan SlurmQueues/Networking/.
Jika disetel ketrue, dengan Name didefinisikan, sumber daya komputasi tersebut ditetapkan grup penempatan bernama, terlepas dari PlacementGroup pengaturanSlurmQueues/Networking/.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Name(Opsional,String)

Nama grup penempatan untuk grup penempatan klaster yang ada yang digunakan untuk sumber daya komputasi.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

Jika keduanyaPlacementGroup/Enableddan Name tidak disetel, nilainya masing-masing default ke PlacementGrouppengaturan SlurmQueuesNetworking//.
ComputeResources/Networking/PlacementGroupditambahkan dengan AWS ParallelCluster versi 3.3.0.

CustomSlurmSettings(Opsional,Dict)

(Opsional) Mendefinisikan kustom Slurm pengaturan konfigurasi node (sumber daya komputasi).

Menentukan kamus kustom Slurm parameter konfigurasi pasangan kunci-nilai yang berlaku untuk Slurm node (sumber daya komputasi).

Setiap pasangan kunci-nilai yang terpisahParam1: Value1, seperti, ditambahkan secara terpisah ke akhir Slurm baris konfigurasi node dalam formatParam1=Value1.

Untuk informasi selengkapnya tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurm kustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

Tags(Opsional, [String])

Daftar pasangan nilai kunci tag. ComputeResourcetag mengganti tag duplikat yang ditentukan dalam Bagian Tags atau SlurmQueues/. Tags

Key(Opsional,String): Kunci tanda.
Value(Opsional,String): Nilai tanda.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`ComputeSettings`

(Wajib) Mendefinisikan ComputeSettings konfigurasi untuk Slurm antrian.

`ComputeSettings`properti

Menentukan sifat-sifat ComputeSettings dari node di Slurm antrian.


ComputeSettings:
  LocalStorage:
    RootVolume:
      Size: integer
      Encrypted: boolean
      VolumeType: string
      Iops: integer
      Throughput: integer
     EphemeralVolume:
      MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

LocalStorage(Opsional)

Menentukan sifat-sifat LocalStorage dari node di Slurm antrian.


LocalStorage:
  RootVolume:
    Size: integer
    Encrypted: boolean
    VolumeType: string
    Iops: integer
    Throughput: integer
  EphemeralVolume:
    MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

RootVolume(Opsional)

Menentukan rincian volume root node di Slurm antrian.


RootVolume:
  Size: integer
  Encrypted: boolean
  VolumeType: string
  Iops: integer
  Throughput: integer

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Size(Opsional,Integer)

Menentukan ukuran volume root dalam gibibytes (GiB) untuk node di Slurm antrian. Ukuran default berasal dari AMI. Menggunakan ukuran yang berbeda mengharuskan AMI mendukunggrowroot.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Encrypted(Opsional,Boolean)

Jikatrue, volume root node di Slurm antrian dienkripsi. Nilai default-nya adalah false.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

VolumeType(Opsional,String)

Menentukan jenis volume Amazon EBS dari node di Slurm antrian. Nilai yang didukung adalah gp2gp3,io1,io2,sc1,st1, danstandard. Nilai default-nya adalah gp3.

Untuk informasi selengkapnya, lihat Jenis volume Amazon EBS di Panduan EC2 Pengguna Amazon.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Iops(Opsional,Boolean)

Mendefinisikan jumlah IOPS untukio1,io2, dan gp3 jenis volume.

Nilai default, nilai yang didukung, dan volume_iops volume_size rasio bervariasi menurut VolumeType danSize.

VolumeType = io1

Default Iops = 100

Nilai yang didukung Iops = 100—64000 †

volume_sizeRasio maksimum volume_iops = 50 IOPS per GiB. 5000 IOPS membutuhkan volume_size setidaknya 100 GiB.

VolumeType = io2

Default Iops = 100

Nilai yang didukung Iops = 100—64000 (256000 untuk io2 volume Block Express) †

SizeRasio maksimum Iops = 500 IOPS per GiB. 5000 IOPS membutuhkan Size minimal 10 GiB.

VolumeType = gp3

Default Iops = 3000

Nilai yang didukung Iops = 3000—16000 †

SizeRasio maksimum Iops = 500 IOPS per GiB untuk volume dengan IOPS lebih besar dari 3000.

† IOPS maksimum dijamin hanya pada Instans yang dibangun di atas Sistem Nitro yang juga disediakan dengan lebih dari 32.000 IOPS. Instans lain dapat memiliki hingga 32.000 IOPS. io1Volume sebelumnya mungkin tidak mencapai kinerja penuh kecuali Anda memodifikasi volume. io2 Volume Block Express mendukung volume_iops nilai hingga 256000 pada jenis R5b instans. Untuk informasi selengkapnya, lihat io2Blokir volume Express di Panduan EC2 Pengguna Amazon.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Throughput(Opsional,Integer)

Mendefinisikan throughput untuk tipe gp3 volume, dalam MIB/s. Pengaturan ini hanya valid jika VolumeType adagp3. Nilai default-nya adalah 125. Nilai yang didukung: 125—1000 MiB/s

Rasio Throughput to Iops bisa tidak lebih dari 0,25. Throughput maksimum 1000 MiB/s mengharuskan Iops pengaturan setidaknya 4000.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

EphemeralVolume(Opsional,Boolean)

Menentukan pengaturan untuk volume fana. Volume sementara dibuat dengan menggabungkan semua volume penyimpanan instance ke dalam volume logis tunggal yang diformat dengan sistem file. ext4 Default-nya adalah /scratch. Jika tipe instance tidak memiliki volume penyimpanan instance, tidak ada volume sementara yang dibuat. Untuk informasi selengkapnya, lihat Volume penyimpanan instans di Panduan EC2 Pengguna Amazon.


EphemeralVolume:
  MountDir: string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

MountDir(Opsional,String)

Direktori mount untuk volume fana untuk setiap node di Slurm antrian.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`CustomActions`

(Opsional) Menentukan skrip kustom untuk berjalan pada node di Slurm antrian.


CustomActions:
  OnNodeStart:
    Sequence:
      - Script: string
        Args:
          - string
    Script: string
    Args:
      - string
  OnNodeConfigured:
    Sequence:
      - Script: string
        Args:
          - string
    Script: string
    Args:
      - string

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

`CustomActions`Properti

OnNodeStart(Opsional,String)

Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian sebelum tindakan bootstrap penerapan node dimulai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

Sequence(Opsional)

Daftar skrip untuk dijalankan.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Script(Diperlukan,String)

File yang akan digunakan. Jalur file dapat dimulai dengan https:// ataus3://.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Args(Opsional,[String])

Daftar argumen untuk diteruskan ke skrip.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Script(Diperlukan,String)

File yang akan digunakan untuk satu skrip. Jalur file dapat dimulai dengan https:// ataus3://.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Args(Opsional,[String])

Daftar argumen untuk diteruskan ke skrip tunggal.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

OnNodeConfigured(Opsional,String)

Menentukan urutan skrip atau skrip tunggal untuk berjalan pada node di Slurm antrian setelah semua tindakan bootstrap node selesai. AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

Sequence(Opsional)

Daftar skrip untuk dijalankan.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Script(Diperlukan,String)

File yang akan digunakan. Jalur file dapat dimulai dengan https:// ataus3://.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Args(Opsional,[String])

Daftar argumen untuk diteruskan ke skrip.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Script(Diperlukan,String)

File yang akan digunakan untuk satu skrip. Jalur file dapat dimulai dengan https:// ataus3://.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

Args(Opsional,[String])

Daftar argumen untuk diteruskan ke skrip tunggal.

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategyharus disetel agar pengaturan ini diubah untuk pembaruan.

catatan

Sequenceditambahkan dimulai dengan AWS ParallelCluster versi 3.6.0. Saat Anda menentukanSequence, Anda dapat membuat daftar beberapa skrip untuk tindakan kustom. AWS ParallelCluster terus mendukung konfigurasi tindakan khusus dengan satu skrip, tanpa menyertakanSequence.

AWS ParallelCluster tidak mendukung termasuk skrip tunggal dan Sequence untuk tindakan kustom yang sama.

`Iam`

(Opsional) Mendefinisikan pengaturan IAM opsional untuk Slurm antrian.


Iam:
  S3Access:
    - BucketName: string
      EnableWriteAccess: boolean
      KeyName: string
  AdditionalIamPolicies:
    - Policy: string
  InstanceProfile: string
  InstanceRole: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`Iam`Properti

InstanceProfile(Opsional,String)

Menentukan profil contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya InstanceProfile danInstanceRole. Formatnya adalah arn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}.

Jika ini ditentukan, AdditionalIamPolicies pengaturan S3Access dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

InstanceRole(Opsional,String)

Menentukan peran contoh untuk mengganti peran contoh default atau profil contoh untuk Slurm antrian. Anda tidak dapat menentukan keduanya InstanceProfile danInstanceRole. Formatnya adalah arn:${Partition}:iam::${Account}:role/${RoleName}.

Jika ini ditentukan, AdditionalIamPolicies pengaturan S3Access dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

S3Access(Opsional)

Menentukan ember untuk Slurm antrian. Ini digunakan untuk menghasilkan kebijakan guna memberikan akses yang ditentukan ke bucket di Slurm antrian.

Jika ini ditentukan, InstanceRole pengaturan InstanceProfile dan tidak dapat ditentukan.

Kami menyarankan Anda menentukan salah satu atau kedua AdditionalIamPolicies pengaturan S3Access dan karena fitur yang ditambahkan AWS ParallelCluster sering memerlukan izin baru.


S3Access:
  - BucketName: string
    EnableWriteAccess: boolean
    KeyName: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

BucketName(Diperlukan,String)

Nama ember.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

KeyName(Opsional,String)

Kunci untuk ember. Nilai default-nya adalah *.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

EnableWriteAccess(Opsional,Boolean)

Menunjukkan apakah akses tulis diaktifkan untuk bucket.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

AdditionalIamPolicies(Opsional)

Menentukan daftar Nama Sumber Daya Amazon (ARNs) kebijakan IAM untuk Amazon. EC2 Daftar ini dilampirkan ke peran root yang digunakan untuk Slurm antrian selain izin yang diperlukan oleh. AWS ParallelCluster

Nama kebijakan IAM dan ARN-nya berbeda. Nama tidak bisa digunakan.

Jika ini ditentukan, InstanceRole pengaturan InstanceProfile dan tidak dapat ditentukan.

Kami menyarankan Anda menggunakan AdditionalIamPolicies karena AdditionalIamPolicies ditambahkan ke izin yang AWS ParallelCluster diperlukan, dan InstanceRole harus menyertakan semua izin yang diperlukan. Izin yang diperlukan sering berubah dari rilis ke rilis saat fitur ditambahkan.

Tidak ada nilai default.


AdditionalIamPolicies:
  - Policy: string

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Policy(Diperlukan,[String])

Daftar kebijakan IAM.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`SlurmSettings`

(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.


SlurmSettings:
  ScaledownIdletime: integer
  QueueUpdateStrategy: string
  EnableMemoryBasedScheduling: boolean
  CustomSlurmSettings: [dict] 
  CustomSlurmSettingsIncludeFile: string
  Database:
    Uri: string
    UserName: string
    PasswordSecretArn: string
  ExternalSlurmdbd:
    Host: string
    Port: integer
  Dns:
    DisableManagedDns: boolean
    HostedZoneId: string
    UseEc2Hostnames: boolean

`SlurmSettings`Properti

ScaledownIdletime(Opsional,Integer)

Mendefinisikan jumlah waktu (dalam menit) bahwa tidak ada pekerjaan dan Slurm simpul berakhir.

Nilai default-nya adalah 10.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

MungeKeySecretArn(Opsional,String)

Nama Sumber Daya Amazon (ARN) dari rahasia Secrets AWS Manager plaintext yang berisi kunci munge yang dikodekan base64 untuk digunakan di Slurm klaster. Kunci munge ini akan digunakan untuk mengautentikasi panggilan RPC antara Slurm perintah klien dan Slurm daemon bertindak sebagai server jarak jauh. Jika tidak MungeKeySecretArn disediakan, AWS ParallelCluster akan menghasilkan kunci munge acak untuk cluster.

catatan

MungeKeySecretArndidukung dimulai dengan AWS ParallelCluster versi 3.8.0.

Awas

Jika baru MungeKeySecretArn ditambahkan ke cluster yang ada, tidak ParallelCluster akan mengembalikan Kunci munge sebelumnya jika terjadi Rollback atau ketika kemudian menghapus. MungeKeySecretArn Sebagai gantinya, kunci munge acak baru akan dihasilkan.

Jika AWS ParallelCluster pengguna memiliki izin untuk DescribeSecretpada sumber rahasia tertentu, MungeKeySecretArn divalidasi. MungeKeySecretArn berlaku jika:

Rahasia yang ditentukan ada, dan
Rahasianya adalah plaintext dan berisi string berenkode base64 yang valid, dan
Kunci munge biner yang diterjemahkan memiliki ukuran antara 256 dan 8192 bit.

Jika kebijakan IAM pengguna pcluster tidak termasuk DescribeSecret, tidak MungeKeySecretArn divalidasi dan pesan peringatan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.

Saat Anda memperbarui MungeKeySecretArn, armada komputasi dan semua node login harus dihentikan.

Jika nilai rahasia di ARN rahasia dimodifikasi sementara ARN tetap sama, cluster tidak akan secara otomatis diperbarui dengan kunci munge baru. Untuk menggunakan kunci munge baru ARN rahasia, Anda harus menghentikan armada komputasi dan login node kemudian menjalankan perintah berikut dari node kepala.

sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh

Setelah menjalankan perintah, Anda dapat melanjutkan armada komputasi dan node login: node komputasi dan login yang baru disediakan akan secara otomatis mulai menggunakan kunci munge baru.

Untuk menghasilkan kunci munge kustom yang dikodekan base64, Anda dapat menggunakan utilitas mungekey yang didistribusikan dengan perangkat lunak munge dan kemudian menyandikannya menggunakan utilitas base64 yang umumnya tersedia di OS Anda. Atau, Anda juga menggunakan bash (harap atur parameter bs antara 32 dan 1024)

dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0

atau Python sebagai berikut:


import random
import os
import base64

# key length in bytes
key_length=128

base64.b64encode(os.urandom(key_length)).decode("utf-8")

Kebijakan Pembaruan: KEBIJAKAN PEMBARUAN BARU DENGAN ARMADA KOMPUTASI DAN NODE LOGIN BERHENTI (keliru tidak ditambahkan di 3.7.0).

QueueUpdateStrategy(Opsional,String)

Menentukan strategi penggantian untuk parameter SlurmQueues bagian yang memiliki kebijakan pembaruan berikut:

Kebijakan pembaruan: Armada komputasi harus dihentikan atau QueueUpdateStrategy harus disetel agar pengaturan ini diubah untuk pembaruan.

QueueUpdateStrategyNilai hanya digunakan ketika proses pembaruan cluster dimulai.

Nilai yang valid: COMPUTE_FLEET_STOP | DRAIN | TERMINATE

Nilai default: COMPUTE_FLEET_STOP

DRAIN

Node dalam antrian dengan nilai parameter yang diubah diatur ke. DRAINING Node dalam keadaan ini tidak menerima pekerjaan baru dan menjalankan pekerjaan terus selesai.

Setelah node menjadi idle (DRAINED), node diganti jika node statis, dan node dihentikan jika node dinamis. Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.

Waktu yang dibutuhkan strategi ini untuk mengganti semua node antrian dengan nilai parameter yang diubah tergantung pada beban kerja yang sedang berjalan.

COMPUTE_FLEET_STOP

Nilai default QueueUpdateStrategy parameter. Dengan pengaturan ini, memperbarui parameter di bawah SlurmQueues bagian mengharuskan Anda menghentikan armada komputasi sebelum melakukan pembaruan klaster:


$ pcluster update-compute-fleet --status STOP_REQUESTED

TERMINATE

Dalam antrian dengan nilai parameter yang diubah, pekerjaan yang berjalan dihentikan dan node segera dimatikan.

Node statis diganti dan node dinamis dihentikan.

Node lain di antrian lain tanpa nilai parameter yang diubah tidak terpengaruh.

Kebijakan pembaruan: Pengaturan ini tidak dianalisis selama pembaruan.

catatan

QueueUpdateStrategydidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

EnableMemoryBasedScheduling(Opsional,Boolean)

Jikatrue, penjadwalan berbasis memori diaktifkan di Slurm. Untuk informasi lebih lanjut, lihat SlurmQueues/ComputeResources/SchedulableMemory.

Nilai default-nya adalah false.

Awas

Mengaktifkan penjadwalan berbasis memori berdampak pada cara Slurm scheduler menangani pekerjaan dan alokasi node.

Untuk informasi selengkapnya, lihat Slurm penjadwalan berbasis memori.

catatan

EnableMemoryBasedSchedulingdidukung dimulai dengan AWS ParallelCluster versi 3.2.0.

catatan

Dimulai dengan AWS ParallelCluster versi 3.7.0, EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Untuk AWS ParallelCluster versi 3.2.0 hingga 3.6. x, tidak EnableMemoryBasedScheduling dapat diaktifkan jika Anda mengonfigurasi beberapa jenis instans di Instans.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

CustomSlurmSettings(Opsional,[Dict])

Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.

Menentukan daftar Slurm kamus konfigurasi pasangan kunci-nilai yang akan ditambahkan ke akhir file yang menghasilkan. slurm.conf AWS ParallelCluster

Setiap kamus dalam daftar muncul sebagai baris terpisah yang ditambahkan ke Slurm file konfigurasi. Anda dapat menentukan parameter sederhana atau kompleks.

Parameter sederhana terdiri dari single key pair, seperti yang ditunjukkan pada contoh berikut:


 - Param1: 100
 - Param2: "SubParam1,SubParam2=SubValue2"

Contoh yang diberikan di Slurm konfigurasi:


Param1=100
Param2=SubParam1,SubParam2=SubValue2

Kompleks Slurm parameter konfigurasi terdiri dari beberapa nilai kunci yang dipisahkan ruang, pasangan seperti yang ditunjukkan pada contoh berikut:


 - NodeName: test-nodes[1-10]
   CPUs: 4
   RealMemory: 4196
   ... # other node settings
 - NodeSet: test-nodeset
   Nodes: test-nodes[1-10]
   ... # other nodeset settings
 - PartitionName: test-partition
   Nodes: test-nodeset
   ... # other partition settings

Contoh, dirender di Slurm konfigurasi:


NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings
NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings
PartitionName=test-partition Nodes=test-nodeset ... # other partition settings

catatan

Kustom Slurm node tidak boleh mengandung -st- atau -dy- pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.

Jika Anda menentukan kustom Slurm parameter konfigurasi diCustomSlurmSettings, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettingsIncludeFile.

Untuk informasi selengkapnya tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurm kustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

CustomSlurmSettingsIncludeFile(Opsional,String)

Mendefinisikan kustom Slurm pengaturan yang berlaku untuk seluruh cluster.

Menentukan kustom Slurm file yang terdiri dari custom Slurm parameter konfigurasi yang akan ditambahkan di akhir slurm.conf file yang AWS ParallelCluster menghasilkan.

Anda harus menyertakan jalur ke file. Jalan bisa dimulai dengan https:// ataus3://.

Jika Anda menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettingsIncludeFile, Anda tidak harus menentukan kustom Slurm parameter konfigurasi untukCustomSlurmSettings.

catatan

Kustom Slurm node tidak boleh mengandung -st- atau -dy- pola dalam nama mereka. Pola-pola ini dicadangkan untuk node yang dikelola oleh AWS ParallelCluster.

Anda hanya dapat menentukan Slurm parameter konfigurasi yang tidak dicantumkan dalam daftar penolakan. CustomSlurmSettingsIncludeFile Untuk informasi tentang deny-listed Slurm parameter konfigurasi, lihatTerdaftar penolakan Slurm parameter konfigurasi untuk CustomSlurmSettings.

Untuk informasi selengkapnya tentang cara menentukan kustom Slurm parameter konfigurasi dengan AWS ParallelCluster, lihatSlurm kustomisasi konfigurasi.

Untuk informasi lebih lanjut tentang Slurm parameter konfigurasi, lihat slurm.conf di Slurm dokumentasi.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

catatan

CustomSlurmSettingsdidukung dimulai dengan AWS ParallelCluster versi 3.6.0.

`Database`

(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi pada cluster. Untuk informasi selengkapnya, lihat Slurm akuntansi dengan AWS ParallelCluster.


Database:
   Uri: string
   UserName: string
   PasswordSecretArn: string

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

`Database`properti

Uri(Diperlukan,String)

Alamat ke server database yang digunakan sebagai backend untuk Slurm akuntansi. URI ini harus diformat sebagai host:port dan tidak boleh berisi skema, sepertimysql://. Host dapat berupa alamat IP atau nama DNS yang dapat diselesaikan oleh node kepala. Jika port tidak disediakan, AWS ParallelCluster gunakan MySQL port standar 3306.

AWS ParallelCluster bootstraps Slurm database akuntansi ke cluster dan harus mengakses database.

Database harus dapat dijangkau sebelum hal berikut terjadi:

Sebuah cluster dibuat.
Slurm akuntansi diaktifkan dengan pembaruan cluster.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

UserName(Diperlukan,String)

Identitas yang Slurm menggunakan untuk terhubung ke database, menulis log akuntansi, dan melakukan kueri. Pengguna harus memiliki izin baca dan tulis pada database.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

PasswordSecretArn(Diperlukan,String)

Nama Sumber Daya Amazon (ARN) dari AWS Secrets Manager rahasia yang berisi kata sandi teks biasaUserName. Kata sandi ini digunakan bersama dengan UserName dan Slurm akuntansi untuk mengautentikasi pada server database.

catatan

Saat membuat rahasia menggunakan AWS Secrets Manager konsol pastikan untuk memilih “Jenis rahasia lainnya”, pilih teks biasa, dan hanya sertakan teks kata sandi dalam rahasia.

Untuk informasi lebih lanjut tentang cara menggunakan AWS Secrets Manager untuk membuat rahasia, lihat Buat AWS Secrets Manager Rahasia

Jika pengguna memiliki izin untuk DescribeSecret, PasswordSecretArn divalidasi. PasswordSecretArnvalid jika rahasia yang ditentukan ada. Jika kebijakan IAM pengguna tidak disertakanDescribeSecret, PasswordSecretArn tidak divalidasi dan pesan peringatan ditampilkan. Untuk informasi selengkapnya, lihat Kebijakan AWS ParallelCluster pcluster pengguna dasar.

Saat Anda memperbaruiPasswordSecretArn, armada komputasi harus dihentikan. Jika nilai rahasia berubah, dan ARN rahasia tidak berubah, cluster tidak diperbarui secara otomatis dengan kata sandi database baru. Untuk memperbarui cluster untuk nilai rahasia baru, Anda harus menjalankan perintah berikut dari dalam node kepala setelah armada komputasi dihentikan.


$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh

Awas

Kami menyarankan Anda hanya mengubah kata sandi database ketika armada komputasi dihentikan untuk menghindari hilangnya data akuntansi.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

DatabaseName(Opsional,String)

Nama database pada server database (didefinisikan oleh parameter Uri) yang akan digunakan untuk Slurm Akuntansi.

Nama database mungkin berisi huruf kecil, angka dan garis bawah. Nama mungkin tidak lebih dari 64 karakter.

Parameter ini memetakan ke StorageLoc parameter slurmdbd.conf.

Jika tidak DatabaseName disediakan, ParallelCluster akan menggunakan nama cluster untuk menentukan nilai untukStorageLoc.

Memperbarui DatabaseName diperbolehkan, dengan pertimbangan berikut:

Jika database dengan nama DatabaseName belum ada di server database, slurmdbd akan membuatnya. Ini akan menjadi tanggung jawab Anda untuk mengkonfigurasi ulang database baru sesuai kebutuhan (misalnya menambahkan entitas akuntansi — cluster, akun, pengguna, asosiasi QOSs, dll.).
Jika database dengan nama DatabaseName sudah ada di server database, slurmdbd akan menggunakannya untuk Slurm Fungsionalitas akuntansi.

Kebijakan pembaruan: Armada komputasi harus dihentikan agar pengaturan ini diubah untuk pembaruan.

catatan

Databaseditambahkan dimulai dengan rilis 3.3.0.

ExternalSlurmdbd

(Opsional) Mendefinisikan pengaturan untuk mengaktifkan Slurm Akuntansi dengan server slurmdbd eksternal. Untuk informasi selengkapnya, silakan lihat Slurm akuntansi dengan AWS ParallelCluster.


ExternalSlurmdbd:
  Host: string
  Port: integer

`ExternalSlurmdbd`properti

Host(Diperlukan,String)

Alamat ke server slurmdbd eksternal untuk Slurm akuntansi. Host dapat berupa alamat IP atau nama DNS yang dapat diselesaikan oleh node kepala.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

Port(Opsional,Integer)

Port yang didengarkan oleh layanan slurmdbd. Nilai default-nya adalah 6819.

Kebijakan pembaruan: Pengaturan ini dapat diubah selama pembaruan.

`Dns`

(Opsional) Mendefinisikan pengaturan untuk Slurm yang berlaku untuk seluruh cluster.


Dns:
  DisableManagedDns: boolean
  HostedZoneId: string
  UseEc2Hostnames: boolean

`Dns`properti

DisableManagedDns(Opsional,Boolean)

Jikatrue, entri DNS untuk klaster tidak dibuat dan Slurm nama node tidak dapat diselesaikan.

Secara default, AWS ParallelCluster buat zona host Route 53 tempat node terdaftar saat diluncurkan. Nilai default-nya adalah false. Jika DisableManagedDns disetel ketrue, zona yang dihosting tidak dibuat oleh AWS ParallelCluster.

Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet

Awas

Sistem resolusi nama diperlukan agar cluster dapat beroperasi dengan benar. Jika DisableManagedDns diatur ketrue, Anda harus memberikan sistem resolusi nama. Untuk menggunakan DNS EC2 default Amazon, setel UseEc2Hostnames ketrue. Atau, konfigurasikan resolver DNS Anda sendiri dan pastikan bahwa nama node terdaftar saat instance diluncurkan. Misalnya, Anda dapat melakukan ini dengan mengonfigurasi CustomActions/OnNodeStart.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

HostedZoneId(Opsional,String)

Mendefinisikan ID zona host Route 53 kustom yang akan digunakan untuk resolusi nama DNS untuk cluster. Saat disediakan, AWS ParallelCluster mendaftarkan node cluster di zona host yang ditentukan dan tidak membuat zona host terkelola.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

UseEc2Hostnames(Opsional,Boolean)

Jikatrue, node komputasi cluster dikonfigurasi dengan nama EC2 host default. Bagian Slurm NodeHostNamejuga diperbarui dengan informasi ini. Default-nya adalah false.

Untuk mempelajari cara menggunakan pengaturan ini untuk menyebarkan cluster di subnet tanpa akses internet, lihat. AWS ParallelCluster dalam satu subnet tanpa akses internet

catatan

Catatan ini tidak relevan dimulai dengan AWS ParallelCluster versi 3.3.0.

Untuk versi yang AWS ParallelCluster didukung sebelum 3.3.0:

Ketika UseEc2Hostnames diatur ketrue, file konfigurasi Slurm diatur dengan skrip AWS ParallelCluster prolog danepilog:

prologberjalan untuk menambahkan info node ke /etc/hosts node komputasi ketika setiap pekerjaan dialokasikan.
epilogberjalan untuk membersihkan konten yang ditulis olehprolog.

Untuk menambahkan kustom prolog atau epilog skrip, tambahkan masing-masing ke /opt/slurm/etc/pcluster/epilog.d/ folder /opt/slurm/etc/pcluster/prolog.d/ atau.

Kebijakan pembaruan: Jika pengaturan ini diubah, pembaruan tidak diizinkan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Bagian HeadNode

Bagian SharedStorage

Pilih preferensi cookie Anda

Bagian Scheduling

Topik

Schedulingproperti

catatan

catatan

AwsBatchQueues

AwsBatchQueuesproperti

catatan

Networking

Networkingproperti

ComputeResources

ComputeResourcesproperti

SlurmQueues

SlurmQueuesproperti

catatan

catatan

catatan

catatan

catatan

catatan

catatan

catatan

catatan

Gpuperilaku pemeriksaan kesehatan

catatan

Networking

Networkingproperti

catatan

Pembaruan cluster untuk mengubah dari penggunaan subnet tunggal ke beberapa subnet:

Availability Zone dan reservasi kapasitas cluster didefinisikan dalam CapacityReservationResourceGroupArn:

catatan

Awas

Awas

Awas

catatan

Image

ImageProperti

catatan

ComputeResources

catatan

ComputeResourcesproperti

catatan

catatan

catatan

catatan

catatan

Awas

catatan

Awas

catatan

catatan

catatan

Gpuperilaku pemeriksaan kesehatan

catatan

catatan

Awas

catatan

catatan

catatan

catatan

ComputeSettings

ComputeSettingsproperti

CustomActions

CustomActionsProperti

catatan

Iam

IamProperti

SlurmSettings

SlurmSettingsProperti

catatan

Awas

catatan

Awas

catatan

catatan

catatan

catatan

catatan

catatan

Bagian `Scheduling`

`Scheduling`properti

`AwsBatchQueues`

`AwsBatchQueues`properti

`Networking`

`Networking`properti

`ComputeResources`

`ComputeResources`properti

`SlurmQueues`

`SlurmQueues`properti

`Gpu`perilaku pemeriksaan kesehatan

`Networking`

`Networking`properti

`Image`

`Image`Properti

`ComputeResources`

`ComputeResources`properti

`Gpu`perilaku pemeriksaan kesehatan

`ComputeSettings`

`ComputeSettings`properti

`CustomActions`

`CustomActions`Properti

`Iam`

`Iam`Properti

`SlurmSettings`

`SlurmSettings`Properti

`Database`

`Database`properti

`ExternalSlurmdbd`properti

`Dns`

`Dns`properti