Scheduling Abschnitt - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Scheduling Abschnitt

(Erforderlich) Definiert den Job Scheduler, der im Cluster verwendet wird, und die Compute-Instances, die der Job Scheduler verwaltet. Sie können entweder den Slurm oder AWS Batch Scheduler. Jedes unterstützt einen anderen Satz von Einstellungen und Eigenschaften.

Scheduling: Scheduler: slurm ScalingStrategy: string SlurmSettings: MungeKeySecretArn: string ScaledownIdletime: integer QueueUpdateStrategy: string EnableMemoryBasedScheduling: boolean CustomSlurmSettings: [dict] CustomSlurmSettingsIncludeFile: string Database: Uri: string UserName: string PasswordSecretArn: string DatabaseName: string ExternalSlurmdbd: boolean Host: string Port: integer Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean SlurmQueues: - Name: string ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string CapacityType: string AllocationStrategy: string JobExclusiveAllocation: boolean CustomSlurmSettings: dict Tags: - Key: string Value: string HealthChecks: Gpu: Enabled: boolean Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string Iam: InstanceProfile: string InstanceRole: string S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string Image: CustomAmi: string
Scheduling: Scheduler: awsbatch AwsBatchQueues: - Name: string CapacityType: string Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float

Scheduling-Eigenschaften

Scheduler(Erforderlich,String)

Gibt den Typ des verwendeten Schedulers an. Unterstützte Werte sind slurm und awsbatch.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

Anmerkung

awsbatchunterstützt nur das alinux2 Betriebssystem und die x86_64 Plattform.

ScalingStrategy(Fakultativ,String)

Ermöglicht es Ihnen zu wählen, wie dynamisch Slurm Knoten werden vergrößert. Unterstützte Werte sindall-or-nothing, greedy-all-or-nothing und best-effort Der Standardwert istall-or-nothing.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

Die Skalierungsstrategie gilt nur für Knoten, die von Slurm wieder aufgenommen werden sollen, nicht für Knoten, die irgendwann schon laufen.

  • all-or-nothingDiese Strategie folgt strikt einer all-or-nothing-approach, die darauf abzielt, inaktive Instanzen am Ende des Skalierungsprozesses zu vermeiden. Sie arbeitet auf einer all-or-nothing Basis, was bedeutet, dass sie entweder vollständig oder gar nicht skaliert wird. Beachten Sie, dass aufgrund vorübergehend gestarteter Instances zusätzliche Kosten anfallen können, wenn Jobs mehr als 500 Knoten erfordern oder sich über mehrere Rechenressourcen erstrecken. Diese Strategie hat den niedrigsten Durchsatz unter den drei möglichen Skalierungsstrategien. Die Skalierungszeit hängt von der Anzahl der pro Paket eingereichten Jobs ab Slurm setzt die Programmausführung fort. Außerdem können Sie nicht weit über das Standardlimit für RunInstances Ressourcenkonten pro Ausführung hinaus skalieren, das standardmäßig bei 1000 Instanzen liegt. Weitere Informationen finden Sie in der EC2APIAmazon-Drosselungsdokumentation

  • greedy-all-or-nothing Ähnlich wie bei der all-or-nothing Strategie zielt sie darauf ab, Instances im Leerlauf nach der Skalierung zu vermeiden. Diese Strategie ermöglicht eine vorübergehende Überskalierung während des Skalierungsprozesses, um einen höheren Durchsatz als bei der all-or-nothing Methode zu erreichen, hat aber auch dasselbe Skalierungslimit von 1000 Instanzen wie beim RunInstances Ressourcenkontolimit.

  • best-effort Bei dieser Strategie wird ein hoher Durchsatz priorisiert, auch wenn dies bedeutet, dass einige Instanzen am Ende des Skalierungsprozesses möglicherweise inaktiv sind. Es wird versucht, so viele Knoten zuzuweisen, wie von den Jobs angefordert werden, aber es besteht die Möglichkeit, dass nicht die gesamte Anfrage erfüllt wird. Im Gegensatz zu den anderen Strategien können beim Best-Effort-Ansatz mehr Instanzen als das RunInstances Standardlimit akkumuliert werden, allerdings auf Kosten ungenutzter Ressourcen während der Ausführung mehrerer Skalierungsprozesse.

Jede Strategie ist so konzipiert, dass sie unterschiedlichen Skalierungsanforderungen gerecht wird, sodass Sie eine auswählen können, die Ihren spezifischen Anforderungen und Einschränkungen entspricht.

AwsBatchQueues

(Optional) Die AWS Batch Warteschlangeneinstellungen. Es wird nur eine Warteschlange unterstützt. Wenn auf gesetzt Scheduleristawsbatch, ist dieser Abschnitt erforderlich. Weitere Informationen zum awsbatch Scheduler finden Sie unter Netzwerk-Setup undVerwenden des AWS Batch (awsbatch) -Schedulers mit AWS ParallelCluster.

AwsBatchQueues: - Name: string CapacityType: string Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AwsBatchQueues-Eigenschaften

Name(Erforderlich,String)

Der Name der AWS Batch Warteschlange.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

CapacityType(Fakultativ,String)

Der Typ der Rechenressourcen, die die AWS Batch Warteschlange verwendet. Unterstützte Werte sindONDEMAND, SPOT oderCAPACITY_BLOCK. Der Standardwert ist ONDEMAND.

Anmerkung

Wenn Sie diese Einstellung CapacityType auf festlegenSPOT, muss Ihr Konto eine AWSServiceRoleForEC2Spot dienstbezogene Rolle enthalten. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Networking

(Erforderlich) Definiert die Netzwerkkonfiguration für die AWS Batch Warteschlange.

Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string
Networking-Eigenschaften
SubnetIds(Erforderlich,[String])

Gibt die ID eines vorhandenen Subnetzes an, in dem die AWS Batch Warteschlange bereitgestellt werden soll. Derzeit wird nur ein Subnetz unterstützt.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

AssignPublicIp(Fakultativ,String)

Erzeugt oder weist den Knoten in der AWS Batch Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind true und false. Die Standardeinstellung hängt von dem Subnetz ab, das Sie angegeben haben.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

SecurityGroups(Optional,[String])

Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet. Wenn Sie keine Sicherheitsgruppen angeben, AWS ParallelCluster erstellt neue Sicherheitsgruppen.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalSecurityGroups(Optional,[String])

Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

ComputeResources

(Erforderlich) Definiert die ComputeResources Konfiguration für die AWS Batch Warteschlange.

ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name: string InstanceTypes: - string MinvCpus: integer DesiredvCpus: integer MaxvCpus: integer SpotBidPercentage: float
ComputeResources-Eigenschaften
Name(Erforderlich,String)

Der Name der AWS Batch Warteschlangencomputer-Umgebung.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

InstanceTypes(Erforderlich,[String])

Das Array der Instanztypen für die AWS Batch Rechenumgebung. Alle Instanztypen müssen die x86_64 Architektur verwenden.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MinvCpus(Fakultativ,Integer)

Die MindestanzahlVCPUs, die eine AWS Batch Rechenumgebung verwenden kann.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

DesiredVcpus(Optional,Integer)

Die gewünschte Anzahl von VCPUs in der AWS Batch Rechenumgebung. AWS Batch passt diesen Wert zwischen MinvCpus und MaxvCpus basierend auf der Nachfrage in der Auftragswarteschlange an.

Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.

MaxvCpus(Fakultativ,Integer)

Die maximale Anzahl von VCPUs für die AWS Batch Rechenumgebung. Sie können diesen Wert nicht auf einen Wert setzen, der niedriger ist alsDesiredVcpus.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates nicht verringert werden.

SpotBidPercentage(Fakultativ,Float)

Der maximale Prozentsatz des On-Demand-Preises für den Instance-Typ, den ein Amazon EC2 Spot-Instance-Preis erreichen kann, bevor Instances gestartet werden. Der Standardwert ist 100 (100%). Der unterstützte Bereich ist 1 -100.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

SlurmQueues

(Optional) Einstellungen für Slurm Warteschlange. Wenn auf eingestellt Scheduleristslurm, ist dieser Abschnitt erforderlich.

SlurmQueues: - Name: string ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string CapacityType: string AllocationStrategy: string JobExclusiveAllocation: boolean CustomSlurmSettings: dict Tags: - Key: string Value: string HealthChecks: Gpu: Enabled: boolean Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string Iam: InstanceProfile: string InstanceRole: string S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string Image: CustomAmi: string

Richtlinie aktualisieren: Bei dieser Einstellung für Listenwerte kann während eines Updates ein neuer Wert hinzugefügt werden, oder die Rechenflotte muss gestoppt werden, wenn ein vorhandener Wert entfernt wird.

SlurmQueues-Eigenschaften

Name(Erforderlich,String)

Der Name des Slurm Warteschlange.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

CapacityReservationTarget
Anmerkung

CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.

CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string

Gibt die On-Demand-Kapazitätsreservierung für die Rechenressourcen der Warteschlange an.

CapacityReservationId(Optional,String)

Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf einen ODCRoder einen Kapazitätsblock für ML beziehen.

Die Reservierung muss dieselbe Plattform verwenden, die die Instanz verwendet. Wenn Ihre Instances beispielsweise ausgeführt werdenrhel8, muss Ihre Kapazitätsreservierung auf der Red Hat Enterprise Linux-Plattform laufen. Weitere Informationen finden Sie unter Unterstützte Plattformen im EC2Amazon-Benutzerhandbuch für Linux-Instances.

Anmerkung

Wenn Sie diese Einstellung Instancesin die Cluster-Konfiguration einbeziehen, müssen Sie diese CapacityReservationId Einstellung für die Warteschlangenebene aus der Konfiguration ausschließen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityReservationResourceGroupArn(Optional,String)

Der Amazon-Ressourcenname (ARN) der Ressourcengruppe, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressourcen der Warteschlange dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Ressourcengruppe auf der Grundlage der folgenden Bedingungen:

In der Ressourcengruppe muss mindestens eine ODCR für jeden Instanztyp in einer Availability Zone für alle Rechenressourcen und Availability Zones der Warteschlange reserviert sein. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Weitere Informationen zu den Konfigurationsanforderungen für mehrere Subnetze finden Sie unter Networking/SubnetIds.

Anmerkung

In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityType(Fakultativ,String)

Der Typ der Rechenressourcen, die Slurm Warteschlange verwendet. Unterstützte Werte sindONDEMAND, SPOT oderCAPACITY_BLOCK. Der Standardwert ist ONDEMAND.

Anmerkung

Wenn Sie das CapacityType auf setzenSPOT, muss Ihr Konto über eine AWSServiceRoleForEC2Spot dienstbezogene Rolle verfügen. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

AllocationStrategy(Fakultativ,String)

Geben Sie die Zuweisungsstrategie für alle Rechenressourcen an, die in definiert sind Instances.

Zulässige Werte: lowest-price | capacity-optimized | price-capacity-optimized

Standard: lowest-price

lowest-price
  • Wenn Sie dies verwendenCapacityType = ONDEMAND, verwendet Amazon EC2 Fleet den Preis, um die Bestellung zu bestimmen, und startet zuerst die Instances mit dem niedrigsten Preis.

  • Wenn Sie dies verwendenCapacityType = SPOT, startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Wenn die Kapazität eines Pools knapp wird, bevor Ihre erforderliche Kapazität erreicht ist, erfüllt Amazon EC2 Fleet Ihre Anfrage, indem es Instances für Sie startet. Insbesondere startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Amazon EC2 Fleet kann Spot-Instances aus mehreren verschiedenen Pools starten.

  • Wenn Sie festlegenCapacityType = CAPACITY_BLOCK, gibt es keine Zuweisungsstrategien, daher kann der AllocationStrategy Parameter nicht konfiguriert werden.

capacity-optimized
  • Wenn Sie festlegenCapacityType = ONDEMAND, capacity-optimized ist es nicht verfügbar.

  • Wenn Sie diese Option festlegenCapacityType = SPOT, startet Amazon EC2 Fleet Instances aus Spot-Instance-Pools mit optimaler Kapazität für die Anzahl der zu startenden Instances.

price-capacity-optimized
  • Wenn Sie festlegenCapacityType = ONDEMAND, capacity-optimized ist es nicht verfügbar.

  • Wenn Sie diese Option festlegenCapacityType = SPOT, identifiziert Amazon EC2 Fleet die Pools mit der höchsten Kapazitätsverfügbarkeit für die Anzahl der Instances, die gestartet werden. Das bedeutet, dass wir Spot Instances aus den Pools anfordern werden, von denen wir glauben, dass die Wahrscheinlichkeit einer kurzfristigen Unterbrechung am geringsten ist. Amazon EC2 Fleet fordert dann Spot-Instances aus den Pools mit dem niedrigsten Preis an.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

AllocationStrategywird ab AWS ParallelCluster Version 3.3.0 unterstützt.

JobExclusiveAllocation(Fakultativ,String)

Wenn auf gesetzttrue, Slurm Das OverSubscribe Partitionsflag ist auf gesetztEXCLUSIVE. Wenn OverSubscribe =EXCLUSIVE, haben Jobs in der Partition exklusiven Zugriff auf alle zugewiesenen Knoten. Weitere Informationen finden Sie EXCLUSIVEin der Slurm -Dokumentation.

Zulässige Werte: true | false

Standard: false

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

JobExclusiveAllocationwird ab AWS ParallelCluster Version 3.7.0 unterstützt.

CustomSlurmSettings(Fakultativ,Dict)

Definiert den Benutzerdefiniert Slurm Konfigurationseinstellungen für die Partition (Warteschlange).

Gibt ein benutzerdefiniertes Wörterbuch an Slurm Schlüssel-Wert-Paare für Konfigurationsparameter, die für Warteschlangen (Partitionen) gelten.

Jedes einzelne Schlüssel-Wert-Paar, z. B.Param1: Value1, wird separat am Ende des Slurm Partitionskonfigurationszeile im Format. Param1=Value1

Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen. CustomSlurmSettings Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettings

AWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.

Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.

Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf im Slurm -Dokumentation.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

Tags(Optional, [Zeichenfolge])

Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder inSlurmQueues/angegeben sind. Tags

Key(Optional,String)

Der Tag-Schlüssel.

Value(Fakultativ,String)

Der Tag-Wert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HealthChecks(Fakultativ)

Geben Sie Integritätsprüfungen für Rechenknoten für alle Rechenressourcen in der Warteschlange an.

Gpu(Fakultativ)

Geben Sie GPU Integritätsprüfungen für alle Rechenressourcen in einer Warteschlange an.

Anmerkung

AWS ParallelCluster unterstütztHealthChecks/nicht Gpu in Knoten, die alinux2 ARM Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIAData Center GPU Manager (DCGM) nicht.

Enabled(Fakultativ,Boolean)

Gibt an AWS ParallelCluster , ob GPU Integritätsprüfungen an Rechenknoten durchgeführt werden. Der Standardwert ist false.

GpuVerhalten bei der Integritätsprüfung
  • WennGpu/auf gesetzt Enabled isttrue, werden AWS ParallelCluster GPU Integritätsprüfungen für Rechenressourcen in der Warteschlange durchgeführt.

  • Bei der Gpu Integritätsprüfung werden GPU Zustandsprüfungen für Rechenressourcen durchgeführt, um zu verhindern, dass Jobs auf Knoten mit einem heruntergestuften Status weitergeleitet werdenGPU.

  • Wenn ein Rechenknoten eine Gpu Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt.

  • Die Dauer der Gpu Integritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen und der Anzahl der Gpu Integritätsprüfungsziele ab (entspricht der Anzahl der GPU Jobziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten.

  • Wenn die Gpu Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine hatGPU, oder, wenn eine Instanz eine hat, es aber keine istGPU, wird die NVIDIA GPU Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA GPUs werden unterstützt.

  • Die Gpu Integritätsprüfung verwendet das dcgmi Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:

    Wenn die Gpu Zustandsprüfung in einem Knoten beginnt:

    1. Es erkennt, ob die nvidia-fabricmanager Dienste nvidia-dcgm und ausgeführt werden.

    2. Wenn diese Dienste nicht ausgeführt werden, werden sie durch die Gpu Integritätsprüfung gestartet.

    3. Es erkennt, ob der Persistenzmodus aktiviert ist.

    4. Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die Gpu Integritätsprüfung aktiviert.

    Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die Gpu Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt.

  • Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen istGPUs, wird die Gpu Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird die Gpu Integritätsprüfung für alle GPUs Knoten ausgeführt.

  • Wenn ein Rechenknoten zwei oder mehr Gpu Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen.

  • Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der /var/log/parallelcluster/slurm_health_check.log Datei verfügbar. Die Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:

    • Einzelheiten zu der Aktion, die im Rahmen der Gpu Integritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus.

    • Der GPU Bezeichner, die Seriennummer und die. UUID

    • Die Ausgabe des Integritätschecks.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt.

Networking

(Erforderlich) Definiert die Netzwerkkonfiguration für Slurm Warteschlange.

Networking: SubnetIds: - string AssignPublicIp: boolean SecurityGroups: - string AdditionalSecurityGroups: - string PlacementGroup: Enabled: boolean Id: string Name: string Proxy: HttpProxyAddress: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Networking-Eigenschaften
SubnetIds(Erforderlich,[String])

Die IDs der vorhandenen Subnetze, die Sie bereitstellen Slurm in die Warteschlange.

Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren InstanceType, können Sie nur ein Subnetz definieren.

Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren Instances, können Sie ein einzelnes Subnetz oder mehrere Subnetze definieren.

Wenn Sie mehrere Subnetze verwenden, müssen sich alle für eine Warteschlange definierten Subnetze in demselben befindenVPC, wobei sich jedes Subnetz in einer separaten Availability Zone (AZ) befindet.

Nehmen wir beispielsweise an, Sie definieren Subnetz-1 und Subnetz-2 für Ihre Warteschlange.

subnet-1und subnet-2 können nicht beide in AZ-1 sein.

subnet-1kann in AZ-1 sein und subnet-2 kann in AZ-2 sein.

Wenn Sie nur einen Instance-Typ konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instance-Typ in Instances und nicht. InstanceType

Definieren Sie beispielsweiseComputeResources/Instances/InstanceType= instance.type stattComputeResources/InstanceType=instance.type.

Anmerkung

Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt.

Die Verwendung mehrerer Availability Zones kann zu einer Erhöhung der Speichernetzwerklatenz und zu zusätzlichen Kosten für die Datenübertragung zwischen den einzelnen AZ-Datenbanken führen. Dies könnte beispielsweise der Fall sein, wenn eine Instance auf einen Dateispeicher zugreift, der sich in einer anderen AZ befindet. Weitere Informationen finden Sie unter Datenübertragung innerhalb derselben AWS-Region.

Cluster-Updates zur Umstellung von der Verwendung eines einzelnen Subnetzes auf mehrere Subnetze:
  • Angenommen, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem FSx für Lustre AWS ParallelCluster verwalteten Dateisystem definiert. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um das Cluster-Update durchzuführen, müssen Sie zuerst das verwaltete Dateisystem in ein externes Dateisystem ändern. Weitere Informationen finden Sie unter Konvertiert AWS ParallelCluster verwalteten Speicher in externen Speicher.

  • Nehmen wir an, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem externen EFS Amazon-Dateisystem definiert, falls nicht EFS Mount-Ziele für alle der AZs mehreren Subnetze existieren, die hinzugefügt werden sollen. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um den Cluster zu aktualisieren oder einen Cluster zu erstellen, müssen Sie zunächst alle Mount-Ziele für alle der AZs definierten mehreren Subnetze erstellen.

Availability Zones und Cluster-Kapazitätsreservierungen, definiert in CapacityReservationResourceGroupArn:
  • Sie können keinen Cluster erstellen, wenn es keine Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt.

  • Sie können einen Cluster erstellen, wenn es eine teilweise Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt. AWS ParallelCluster sendet in diesem Fall eine Warnmeldung über die teilweise Überlappung.

  • Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Anmerkung

In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.

Warnung

Diese Warnung gilt für alle AWS ParallelCluster 3.x.y-Versionen vor Version 3.3.1. AWS ParallelCluster Version 3.3.1 ist nicht betroffen, wenn dieser Parameter geändert wird.

Für AWS ParallelCluster 3 Versionen vor Version 3.3.1:

Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende FSx für Lustre verwaltete Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Bevor Sie fortfahren, stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten beibehalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSxfor Lustre-Benutzerhandbuch.

Wenn ein neuer Subnetzwert hinzugefügt wird, Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Wenn ein Subnetzwert entfernt wird, Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

AssignPublicIp(Fakultativ,String)

Erzeugt oder weist den Knoten in der eine öffentliche IP-Adresse zu Slurm Warteschlange. Unterstützte Werte sind true und false. Das von Ihnen angegebene Subnetz bestimmt den Standardwert. Ein Subnetz mit öffentlicher IPs Standardeinstellung für die Zuweisung öffentlicher IP-Adressen.

Wenn Sie eine definieren p4d or hpc6id Für den Instanztyp oder einen anderen Instanztyp mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie HeadNode/Networking/auf setzen, ElasticIptrueum öffentlichen Zugriff zu gewähren. AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. In diesem Fall empfehlen wir, ein NATGateway zu verwenden, um öffentlichen Zugriff auf die Cluster-Rechenknoten zu gewähren. Stellen Sie in diesem Fall AssignPublicIp auf einfalse. Weitere Informationen zu IP-Adressen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

SecurityGroups(Optional,[String])

Eine Liste der Sicherheitsgruppen, die für die verwendet werden sollen Slurm Warteschlange. Wenn keine Sicherheitsgruppen angegeben sind, AWS ParallelCluster erstellt es Sicherheitsgruppen für Sie.

Stellen Sie sicher, dass die Sicherheitsgruppen für Ihre SharedStorageSysteme korrekt konfiguriert sind.

Warnung

Diese Warnung gilt für alle 3.x.y AWS ParallelCluster Versionen vor Version 3.3.0. AWS ParallelCluster Version 3.3.0 ist nicht betroffen, wenn dieser Parameter geändert wird.

Für AWS ParallelCluster 3 Versionen vor Version 3.3.0:

Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende FSx für Lustre verwaltete Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten erhalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSxfor Lustre-Benutzerhandbuch.

Warnung

Wenn Sie Efa für Ihre Compute-Instances aktivieren, stellen Sie sicher, dass Ihre EFA -fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalSecurityGroups(Optional,) [String]

Eine Liste zusätzlicher Sicherheitsgruppen, die für die verwendet werden können Slurm Warteschlange.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

PlacementGroup(Fakultativ)

Definiert die Platzierungsgruppeneinstellungen für Slurm Warteschlange.

PlacementGroup: Enabled: boolean Id: string Name: string

Aktualisierungsrichtlinie: Alle Rechenknoten müssen gestoppt werden, damit eine verwaltete Platzierungsgruppe gelöscht werden kann. Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Enabled(Optional,Boolean)

Gibt an, ob eine Platzierungsgruppe verwendet wird für Slurm Warteschlange. Der Standardwert ist false.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Id(Fakultativ,String)

Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die Slurm Die Warteschlange verwendet. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Name(Fakultativ,String)

Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die Slurm Die Warteschlange verwendet. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung
Proxy(Fakultativ)

Spezifiziert die Proxyeinstellungen für Slurm Warteschlange.

Proxy: HttpProxyAddress: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HttpProxyAddress(Fakultativ,String)

Definiert einen HTTP HTTPS Oder-Proxyserver für Slurm Warteschlange. In der Regel ist eshttps://x.x.x.x:8080.

Es gibt keinen Standardwert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Image

(Optional) Gibt das Bild an, das für das verwendet werden soll Slurm Warteschlange. Um dasselbe AMI für alle Knoten zu verwenden, verwenden Sie die CustomAmiEinstellung im ImageAbschnitt.

Image: CustomAmi: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

ImageEigenschaften
CustomAmi(Fakultativ,String)

Das AMI zu verwendende für Slurm Warteschlange statt der StandardeinstellungAMIs. Sie können das pcluster CLIBefehl, um eine Liste der Standardwerte anzuzeigenAMIs.

Anmerkung

Der AMI muss auf demselben Betriebssystem basieren, das vom Hauptknoten verwendet wird.

pcluster list-official-images

Wenn für den Start der benutzerdefinierten Version zusätzliche Berechtigungen AMI erforderlich sind, müssen Sie diese Berechtigungen zur Richtlinie für den Hauptknoten hinzufügen.

Wenn einem benutzerdefinierten Benutzer beispielsweise AMI ein verschlüsselter Snapshot zugeordnet ist, sind die folgenden zusätzlichen Richtlinien in den Kopfknotenrichtlinien erforderlich.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:<AWS_REGION>:<AWS_ACCOUNT_ID>:key/<AWS_KMS_KEY_ID>" ] } ] }

Informationen zur Fehlerbehebung bei benutzerdefinierten AMI Validierungswarnungen finden Sie unterBehebung benutzerdefinierter AMI Probleme.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

ComputeResources

(Erforderlich) Definiert die ComputeResources Konfiguration für Slurm Warteschlange.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

ComputeResources: - Name: string InstanceType: string Instances: - InstanceType: string MinCount: integer MaxCount: integer DynamicNodePriority: integer StaticNodePriority: integer SpotPrice: float DisableSimultaneousMultithreading: boolean SchedulableMemory: integer HealthChecks: Gpu: Enabled: boolean Efa: Enabled: boolean GdrSupport: boolean CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string Networking: PlacementGroup: Enabled: boolean Name: string CustomSlurmSettings: dict Tags: - Key: string Value: string

Richtlinie aktualisieren: Bei dieser Einstellung für Listenwerte kann während eines Updates ein neuer Wert hinzugefügt werden, oder die Rechenflotte muss gestoppt werden, wenn ein vorhandener Wert entfernt wird.

ComputeResources-Eigenschaften
Name(Erforderlich,String)

Der Name des Slurm Datenverarbeitungsumgebung in der Warteschlange. Der Name kann bis zu 25 Zeichen lang sein.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

InstanceType(Erforderlich,String)

Der Instanztyp, der in diesem Fall verwendet wird Slurm Rechenressource. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden. Instanzen können entweder die x86_64 arm64 Oder-Architektur verwenden.

Die Clusterkonfiguration muss entweder Instanzen InstanceTypeoder definieren. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.

Wenn Sie definierenInstanceType, können Sie nicht mehrere Subnetze definieren. Wenn Sie nur einen Instanztyp konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instanztyp in und Instances nicht in. InstanceType Weitere Informationen finden Sie unter Networking/SubnetIds.

Wenn Sie eine definieren p4d or hpc6id Instance-Typ oder ein anderer Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet werden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Instances(Erforderlich)

Gibt die Liste der Instanztypen für eine Rechenressource an. Informationen zur Angabe der Zuweisungsstrategie für die Liste der Instanztypen finden Sie unter AllocationStrategy.

Die Clusterkonfiguration muss entweder InstanceTypeoder definieren Instances. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.

Weitere Informationen finden Sie unter Zuweisung mehrerer Instanztypen mit Slurm.

Instances: - InstanceType: string
Anmerkung

Ab AWS ParallelCluster Version 3.7.0 EnableMemoryBasedScheduling kann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Richtlinie aktualisieren: Bei dieser Einstellung für Listenwerte kann während eines Updates ein neuer Wert hinzugefügt werden, oder die Rechenflotte muss gestoppt werden, wenn ein vorhandener Wert entfernt wird.

InstanceType(Erforderlich,String)

Der Instanztyp, der dabei verwendet werden soll Slurm Rechenressource. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden, entweder x86_64 oderarm64.

Die unter aufgeführten Instanztypen Instancesmüssen Folgendes aufweisen:

  • Dieselbe Anzahl von Kernen odervCPUs, falls DisableSimultaneousMultithreadingauf eingestellttrue, dieselbe Anzahl von Kernen.

  • Dieselbe Anzahl von Beschleunigern derselben Hersteller.

  • EFAunterstützt, falls Efa/auf Enabledtruegesetzt ist.

Die Instanztypen, die unter aufgeführt sind, Instanceskönnen Folgendes haben:

  • Unterschiedliche Speichermenge.

    In diesem Fall muss der Mindestspeicher als Verbrauchsmaterial festgelegt werden Slurm Ressource.

    Anmerkung

    EnableMemoryBasedSchedulingKann ab AWS ParallelCluster Version 3.7.0 aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

    Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

  • Verschiedene Netzwerkkarten.

    In diesem Fall wird die Anzahl der für die Rechenressource konfigurierten Netzwerkschnittstellen durch den Instanztyp mit der geringsten Anzahl von Netzwerkkarten definiert.

  • Unterschiedliche Netzwerkbandbreite.

  • Unterschiedliche Größe des Instance-Speichers.

Wenn Sie eine definieren p4d or hpc6id Instance-Typ oder ein anderer Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instanzen zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Instanceswird ab AWS ParallelCluster Version 3.3.0 unterstützt.

MinCount(Fakultativ,Integer)

Die Mindestanzahl von Instanzen, die Slurm Die Rechenressource verwendet. Der Standardwert ist 0.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MaxCount(Optional,Integer)

Die maximale Anzahl von Instanzen, die Slurm Die Rechenressource verwendet. Der Standardwert ist 10.

Bei Verwendung CapacityType = CAPACITY_BLOCK MaxCount muss der Wert gleich oder größer als 0 sein, da alle Instanzen, die Teil der Capacity Block-Reservierung sind, als statische Knoten verwaltet werden. MinCount

Bei der Clustererstellung wartet der Hauptknoten, bis alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Bei der Verwendung werden die KnotenCapacityType = CAPACITY_BLOCK, die Teil der Rechenressourcen sind, die Kapazitätsblöcken zugeordnet sind, bei dieser Prüfung jedoch nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Kapazitätsblöcke aktiv sind.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

DynamicNodePriority(Optional,Integer)

Die Priorität dynamischer Knoten in einer Queue-Rechenressource. Die Priorität entspricht Slurm WeightKnotenkonfigurationsparameter für die dynamischen Knoten der Rechenressource. Der Standardwert ist 1000.

Slurm priorisiert zuerst Knoten mit den niedrigsten Weight Werten.

Warnung

Die Verwendung vieler verschiedener Weight Werte in einem Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.

In AWS ParallelCluster Versionen vor Version 3.7.0 wurde sowohl statischen als auch dynamischen Knoten dieselbe Standardgewichtung von 1 zugewiesen. In diesem Fall Slurm könnte aufgrund des Benennungsschemas für statische und dynamische Knoten inaktive dynamische Knoten gegenüber inaktiven statischen Knoten priorisieren. Wenn alles andere gleich ist, Slurm ordnet Knoten alphabetisch nach Namen.

Anmerkung

DynamicNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

StaticNodePriority(Fakultativ,Integer)

Die Priorität statischer Knoten in einer Queue-Rechenressource. Die Priorität entspricht Slurm WeightKnotenkonfigurationsparameter für die statischen Knoten der Rechenressource. Der Standardwert ist 1.

Slurm priorisiert zuerst Knoten mit den niedrigsten Weight Werten.

Warnung

Die Verwendung vieler verschiedener Weight Werte in einem Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.

Anmerkung

StaticNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

SpotPrice(Fakultativ,Float)

Der Höchstpreis, der für eine Amazon EC2 Spot-Instance bezahlt wurde, bevor Instances gestartet wurden. Der Standardwert ist der On-Demand-Preis.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

DisableSimultaneousMultithreading(Optional,Boolean)

Wenntrue, Multithreading auf den Knoten in Slurm Warteschlange ist deaktiviert. Der Standardwert ist false.

Nicht alle Instance-Typen können Multithreading deaktivieren. Eine Liste der Instance-Typen, die die Deaktivierung von Multithreading unterstützen, finden Sie im EC2Amazon-Benutzerhandbuch unter CPUKerne und Threads für jeden CPU Kern pro Instance-Typ.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

SchedulableMemory(Optional,) Integer

Die Speichermenge in MiB, die konfiguriert ist in Slurm Parameter RealMemory für die Rechenknoten einer Rechenressource. Dieser Wert ist die Obergrenze für den Knotenspeicher, der für Jobs verfügbar ist, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Der Standardwert ist 95 Prozent des Speichers, der unter EC2Amazon-Instanztypen aufgeführt und von Amazon zurückgegeben wird EC2 API DescribeInstanceTypes. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen.

Unterstützte Werte: 1-EC2Memory

EC2Memoryist der Speicher (in MiB), der unter EC2Amazon-Instanztypen aufgeführt und von Amazon EC2 API DescribeInstanceTypeszurückgegeben wird. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen.

Diese Option ist am relevantesten, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Weitere Informationen finden Sie unter Slurmspeicherbasierte Terminplanung.

Anmerkung

SchedulableMemorywird ab AWS ParallelCluster Version 3.2.0 unterstützt.

Ab Version 3.2.0 konfiguriert standardmäßig für AWS ParallelCluster RealMemory Slurm Rechenknoten für 95 Prozent des Speichers, der von Amazon zurückgegeben wird EC2 APIDescribeInstanceTypes. Diese Konfiguration ist unabhängig vom Wert vonEnableMemoryBasedScheduling.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HealthChecks(Fakultativ)

Geben Sie Integritätsprüfungen für eine Rechenressource an.

Gpu(Fakultativ)

Geben Sie GPU Integritätsprüfungen für eine Rechenressource an.

Enabled(Fakultativ,Boolean)

Gibt an AWS ParallelCluster , ob bei der Berechnung einer Ressource in einer Warteschlange GPU Integritätsprüfungen durchgeführt werden. Der Standardwert ist false.

Anmerkung

AWS ParallelCluster unterstütztHealthChecks/nicht Gpu in Knoten, die alinux2 ARM Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIAData Center GPU Manager (DCGM) nicht.

GpuVerhalten bei der Gesundheitsprüfung
  • WennGpu/auf gesetzt Enabled isttrue, werden AWS ParallelCluster GPU Integritätsprüfungen für eine Rechenressource durchgeführt.

  • Bei der Gpu Integritätsprüfung werden Integritätsprüfungen für eine Rechenressource durchgeführt, um zu verhindern, dass Jobs auf Knoten weitergeleitet werden, deren Leistung beeinträchtigt GPU ist.

  • Wenn ein Rechenknoten eine Gpu Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt.

  • Die Dauer der Gpu Integritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen und der Anzahl der Gpu Integritätsprüfungsziele ab (entspricht der Anzahl der GPU Jobziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten.

  • Wenn die Gpu Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine hatGPU, oder, wenn eine Instanz eine hat, es aber keine istGPU, wird die NVIDIA GPU Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA GPUs werden unterstützt.

  • Die Gpu Integritätsprüfung verwendet das dcgmi Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:

    Wenn die Gpu Zustandsprüfung in einem Knoten beginnt:

    1. Es erkennt, ob die nvidia-fabricmanager Dienste nvidia-dcgm und ausgeführt werden.

    2. Wenn diese Dienste nicht ausgeführt werden, werden sie durch die Gpu Integritätsprüfung gestartet.

    3. Es erkennt, ob der Persistenzmodus aktiviert ist.

    4. Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die Gpu Integritätsprüfung aktiviert.

    Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die Gpu Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt.

  • Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen istGPUs, wird die Gpu Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird die Gpu Integritätsprüfung für alle GPUs Knoten ausgeführt.

  • Wenn ein Rechenknoten zwei oder mehr Gpu Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen.

  • Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der /var/log/parallelcluster/slurm_health_check.log Datei verfügbar. Diese Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:

    • Einzelheiten zu der Aktion, die im Rahmen der Gpu Integritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus.

    • Der GPU Bezeichner, die Seriennummer und die. UUID

    • Die Ausgabe des Integritätschecks.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt.

Efa(Fakultativ)

Spezifiziert die Elastic Fabric Adapter-Einstellungen (EFA) für die Knoten in der Slurm Warteschlange.

Efa: Enabled: boolean GdrSupport: boolean

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Enabled(Optional,Boolean)

Gibt an, dass der Elastic Fabric Adapter (EFA) aktiviert ist. Eine Liste der unterstützten EC2 Amazon-Instances finden Sie unter Unterstützte Instance-Typen im EC2Amazon-Benutzerhandbuch für Linux-Instances. EFA Weitere Informationen finden Sie unter Elastic Fabric Adapter. Wir empfehlen die Verwendung eines Clusters SlurmQueues/Networking/, PlacementGroupum die Latenzen zwischen den Instances zu minimieren.

Der Standardwert ist false.

Anmerkung

Der Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt. Weitere Informationen finden Sie unter SubnetIds.

Warnung

Wenn Sie eine benutzerdefinierte Sicherheitsgruppe in definieren, stellen Sie sicher SecurityGroups, dass Ihre EFA -aktivierten Instances Mitglieder einer Sicherheitsgruppe sind, die allen eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

GdrSupport(Optional,) Boolean

(Optional) Ab AWS ParallelCluster Version 3.0.2 hat diese Einstellung keine Auswirkung. Die Unterstützung von Elastic Fabric Adapter GPUDirect RDMA (EFA) für (direkten Remote-Speicherzugriff) ist immer aktiviert, wenn sie vom Instance-Typ für den Slurm Rechenressource und Betriebssystem.

Anmerkung

AWS ParallelCluster Version 3.0.0 bis 3.0.1: Support für GPUDirect RDMA ist aktiviert für Slurm Ressourcen berechnen. Support für GPUDirect RDMA wird von bestimmten Instance-Typen (p4d.24xlarge) auf bestimmten Betriebssystemen unterstützt (Osist alinux2ubuntu1804, oderubuntu2004). Der Standardwert ist "false".

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityReservationTarget
CapacityReservationTarget: CapacityReservationId: string CapacityReservationResourceGroupArn: string

Gibt die On-Demand-Kapazitätsreservierung an, die für die Rechenressource verwendet werden soll.

CapacityReservationId(Fakultativ,String)

Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf einen ODCRoder einen Kapazitätsblock für ML beziehen.

Wenn dieser Parameter auf Rechenressourcenebene angegeben wird, InstanceType ist er optional und wird automatisch aus der Reservierung abgerufen.

CapacityReservationResourceGroupArn(Optional,String)

Gibt den Amazon-Ressourcennamen (ARN) der Ressourcengruppe an, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressource dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Gruppe. Die Ressourcengruppe muss mindestens eine ODCR für jeden Instanztyp haben, der für die Rechenressource aufgeführt ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.

Networking
Networking: PlacementGroup: Enabled: boolean Name: string

Aktualisierungsrichtlinie: Alle Rechenknoten müssen gestoppt werden, damit eine verwaltete Platzierungsgruppe gelöscht werden kann. Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

PlacementGroup(Fakultativ)

Gibt die Platzierungsgruppeneinstellungen für die Rechenressource an.

Enabled(Optional,Boolean)

Gibt an, ob eine Platzierungsgruppe für die Rechenressource verwendet wird.

  • Wenn dieser Wert auf true gesetzt ist und kein Name definierter Wert angegeben ist, wird dieser Rechenressource unabhängig von der PlacementGroupEinstellung SlurmQueues/Networking/eine eigene verwaltete Platzierungsgruppe zugewiesen.

  • Wenn dieser Wert auf true gesetzt ist und ein Name Wert definiert ist, wird dieser Rechenressource unabhängig von denSlurmQueues/Networking/PlacementGroup-Einstellungen die benannte Platzierungsgruppe zugewiesen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Name(Optional,String)

Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die für die Rechenressource verwendet wird.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung
  • Wenn Enabled sowohlPlacementGroup/als auch Name nicht gesetzt sind, werden für ihre jeweiligen Werte standardmäßig die PlacementGroupEinstellungen SlurmQueues/Networking/verwendet.

  • ComputeResources/Networking/PlacementGroupwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.

CustomSlurmSettings(Fakultativ,Dict)

(Optional) Definiert den Benutzerdefiniert Slurm Konfigurationseinstellungen für den Knoten (Rechenressource).

Gibt ein benutzerdefiniertes Wörterbuch an Slurm Schlüssel-Wert-Paare für Konfigurationsparameter, die gelten für Slurm Knoten (Rechenressourcen).

Jedes einzelne Schlüssel-Wert-Paar, z. B.Param1: Value1, wird separat am Ende des Slurm Knotenkonfigurationszeile im Format. Param1=Value1

Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen. CustomSlurmSettings Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettings

AWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.

Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.

Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf im Slurm -Dokumentation.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

Tags(Optional, [Zeichenfolge])

Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder SlurmQueues/angegeben sind. Tags

Key(Optional,String)

Der Tag-Schlüssel.

Value(Fakultativ,String)

Der Tag-Wert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

ComputeSettings

(Erforderlich) Definiert die ComputeSettings Konfiguration für Slurm Warteschlange.

ComputeSettings-Eigenschaften

Spezifiziert die Eigenschaften ComputeSettings der Knoten im Slurm Warteschlange.

ComputeSettings: LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

LocalStorage(Fakultativ)

Spezifiziert die Eigenschaften LocalStorage der Knoten in Slurm Warteschlange.

LocalStorage: RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer EphemeralVolume: MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

RootVolume(Fakultativ)

Gibt die Details des Root-Volumes der Knoten in der Slurm Warteschlange.

RootVolume: Size: integer Encrypted: boolean VolumeType: string Iops: integer Throughput: integer

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Size(Fakultativ,Integer)

Gibt die Größe des Root-Volumes in Gibibyte (GiB) für die Knoten in der Slurm Warteschlange. Die Standardgröße stammt aus dem. AMI Für die Verwendung einer anderen Größe sind die AMI Stützen erforderlichgrowroot.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Encrypted(Fakultativ,Boolean)

Wenntrue, das Root-Volumen der Knoten in Slurm Warteschlangen sind verschlüsselt. Der Standardwert ist false.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

VolumeType(Fakultativ,String)

Gibt den EBSAmazon-Volume-Typ der Knoten in der Slurm Warteschlange. Unterstützte Werte sind gp2 gp3io1,io2,sc1,st1, undstandard. Der Standardwert ist gp3.

Weitere Informationen finden Sie unter EBSAmazon-Volumetypen im EC2Amazon-Benutzerhandbuch.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Iops(Fakultativ,Boolean)

Definiert die Anzahl der Volumes gp3 vom Typ IOPS for io1io2, und.

Der Standardwert, die unterstützten Werte und das volume_size Verhältnis volume_iops zu den Werten variieren je nach VolumeType undSize.

VolumeType = io1

Standard Iops = 100

Unterstützte Werte Iops = 100—64000 †

Maximales volume_iops volume_size Verhältnis = 50 IOPS pro GiB. 5000 IOPS erfordert einen volume_size Wert von mindestens 100 GiB.

VolumeType = io2

Standard Iops = 100

Unterstützte Werte Iops = 100—64000 (256000 für io2 Block Express-Volumes) †

Maximales Iops Size Verhältnis = 500 IOPS pro GiB. 5000 IOPS erfordert einen Size Wert von mindestens 10 GiB.

VolumeType = gp3

Standard Iops = 3000

Unterstützte Werte Iops = 3000—16000 †

Maximales Iops Size Verhältnis = 500 IOPS pro GiB für Volumen mit IOPS mehr als 3000.

† IOPS Das Maximum wird nur für Instances garantiert, die auf dem Nitro-System basieren und für die auch mehr als 32.000 bereitgestellt werden. IOPS Andere Instanzen können bis zu 32.000 haben. IOPS Frühere io1 Volumes erreichen möglicherweise nicht die volle Leistung, es sei denn, Sie ändern das Volume. io2 Block Express-Volumes unterstützen volume_iops Werte bis zu 256000 für R5b Instance-Typen. Weitere Informationen finden Sie unter io2Block Express-Volumen im EC2Amazon-Benutzerhandbuch.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Throughput(Fakultativ,Integer)

Definiert den Durchsatz für gp3 Volumetypen in MiB/s. Diese Einstellung ist nur gültig, wenn sie VolumeType ist. gp3 Der Standardwert ist 125. Unterstützte Werte: 125—1000 MiB/s

Das Verhältnis von Throughput zu Iops darf nicht mehr als 0,25 betragen. Der maximale Durchsatz von 1000 MiB/s setzt voraus, dass die Iops Einstellung mindestens 4000 beträgt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

EphemeralVolume(Fakultativ,) Boolean

Gibt die Einstellungen für das kurzlebige Volumen an. Das ephemere Volume wird erstellt, indem alle Instance-Speicher-Volumes zu einem einzigen logischen Volume zusammengefasst werden, das mit dem Dateisystem formatiert ist. ext4 Der Standardwert ist /scratch. Wenn der Instance-Typ keine Instance-Speicher-Volumes hat, wird kein ephemeres Volume erstellt. Weitere Informationen finden Sie unter Instance-Speicher-Volumes im EC2Amazon-Benutzerhandbuch.

EphemeralVolume: MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

MountDir(Fakultativ,String)

Das Mount-Verzeichnis für das ephemere Volume für jeden Knoten im Slurm Warteschlange.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CustomActions

(Optional) Gibt benutzerdefinierte Skripts an, die auf den Knoten ausgeführt werden sollen in Slurm Warteschlange.

CustomActions: OnNodeStart: Sequence: - Script: string Args: - string Script: string Args: - string OnNodeConfigured: Sequence: - Script: string Args: - string Script: string Args: - string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CustomActionsEigenschaften
OnNodeStart(Fakultativ,String)

Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange, bevor eine Bootstrap-Aktion zur Knotenbereitstellung gestartet wird. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

OnNodeConfigured(Fakultativ,String)

Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange, nachdem alle Bootstrap-Aktionen des Knotens abgeschlossen sind. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Sequencewird ab AWS ParallelCluster Version 3.6.0 hinzugefügt. Wenn Sie angebenSequence, können Sie mehrere Skripts für eine benutzerdefinierte Aktion auflisten. AWS ParallelCluster unterstützt weiterhin die Konfiguration einer benutzerdefinierten Aktion mit einem einzigen Skript, ohne dies einzuschließenSequence.

AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen.

Iam

(Optional) Definiert optionale IAM Einstellungen für Slurm Warteschlange.

Iam: S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string AdditionalIamPolicies: - Policy: string InstanceProfile: string InstanceRole: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

IamEigenschaften
InstanceProfile(Fakultativ,String)

Gibt ein Instanzprofil an, das die Standard-Instanzrolle oder das Instanzprofil für die überschreibt Slurm Warteschlange. Sie können nicht sowohl als InstanceProfile auch angebenInstanceRole. Das Format ist arn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}.

Wenn dies angegeben ist, können die AdditionalIamPolicies Einstellungen S3Access und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

InstanceRole(Optional,String)

Gibt eine Instanzrolle an, um die Standard-Instanzrolle oder das Instanzprofil für die zu überschreiben Slurm Warteschlange. Sie können nicht sowohl als InstanceProfile auch angebenInstanceRole. Das Format ist arn:${Partition}:iam::${Account}:role/${RoleName}.

Wenn dies angegeben ist, können die AdditionalIamPolicies Einstellungen S3Access und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

S3Access(Fakultativ)

Spezifiziert einen Bucket für Slurm Warteschlange. Dies wird verwendet, um Richtlinien zu generieren, die den angegebenen Zugriff auf den Bucket in der Slurm Warteschlange.

Wenn dies angegeben ist, können die InstanceRole Einstellungen InstanceProfile und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.

S3Access: - BucketName: string EnableWriteAccess: boolean KeyName: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

BucketName(Erforderlich,String)

Der Name des -Buckets.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

KeyName(Fakultativ,String)

Der Schlüssel für den Eimer. Der Standardwert ist *.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

EnableWriteAccess(Fakultativ,Boolean)

Gibt an, ob der Schreibzugriff für den Bucket aktiviert ist.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalIamPolicies(Fakultativ)

Gibt eine Liste von Amazon-Ressourcennamen (ARNs) mit IAM Richtlinien für Amazon anEC2. Diese Liste ist an die Root-Rolle angehängt, die für Slurm Warteschlange zusätzlich zu den Berechtigungen, die für erforderlich sind AWS ParallelCluster.

Ein IAM Richtlinienname und sein Name ARN sind unterschiedlich. Namen können nicht verwendet werden.

Wenn dies angegeben ist, können die InstanceRole Einstellungen InstanceProfile und nicht angegeben werden.

Wir empfehlen die Verwendung, AdditionalIamPolicies da sie zu den erforderlichen Berechtigungen hinzugefügt AdditionalIamPolicies werden und alle erforderlichen Berechtigungen enthalten InstanceRole müssen. AWS ParallelCluster Die erforderlichen Berechtigungen ändern sich häufig von Version zu Version, da Funktionen hinzugefügt werden.

Es gibt keinen Standardwert.

AdditionalIamPolicies: - Policy: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

SlurmSettings

(Optional) Definiert die Einstellungen für Slurm die für den gesamten Cluster gelten.

SlurmSettings: ScaledownIdletime: integer QueueUpdateStrategy: string EnableMemoryBasedScheduling: boolean CustomSlurmSettings: [dict] CustomSlurmSettingsIncludeFile: string Database: Uri: string UserName: string PasswordSecretArn: string ExternalSlurmdbd: Host: string Port: integer Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean

SlurmSettingsEigenschaften

ScaledownIdletime(Fakultativ,Integer)

Definiert den Zeitraum (in Minuten), in dem es keinen Job gibt und Slurm Der Knoten wird beendet.

Der Standardwert ist 10.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MungeKeySecretArn(Fakultativ,String)

Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Manager-Geheimnisses im Klartext, das den Base64-kodierten Munge-Schlüssel enthält, der verwendet werden soll in Slurm Cluster. Dieser Munge-Schlüssel wird verwendet, um Anrufe zu authentifizieren zwischen RPC Slurm Client-Befehle und Slurm Daemons, die als Remoteserver agieren. Wenn MungeKeySecretArn nicht angegeben, AWS ParallelCluster wird ein zufälliger Munge-Schlüssel für den Cluster generiert.

Anmerkung

MungeKeySecretArnwird ab AWS ParallelCluster Version 3.8.0 unterstützt.

Warnung

Wenn der MungeKeySecretArn neu zu einem vorhandenen Cluster hinzugefügt ParallelCluster wird, wird der vorherige munge Key im Falle eines Rollbacks oder beim späteren Entfernen des nicht wiederhergestellt. MungeKeySecretArn Stattdessen wird ein neuer zufälliger Munge-Schlüssel generiert.

Ob der AWS ParallelCluster Benutzer die Erlaubnis hat, DescribeSecretauf diese bestimmte geheime Ressource zuzugreifen, MungeKeySecretArn wird überprüft. MungeKeySecretArn ist gültig, wenn:

  • Das angegebene Geheimnis existiert und

  • Das Geheimnis ist Klartext und enthält eine gültige Base64-kodierte Zeichenfolge, und

  • Der dekodierte binäre Munge-Schlüssel hat eine Größe zwischen 256 und 8192 Bit.

Wenn die IAM Pcluster-Benutzerrichtlinie dies nicht beinhaltet DescribeSecret, nicht validiert MungeKeySecretArn wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.

Wenn Sie ein Update MungeKeySecretArn durchführen, müssen die Rechenflotte und alle Anmeldeknoten gestoppt werden.

Wenn der geheime Wert im Secret geändert ARN wird, während der gleiche ARN bleibt, wird der Cluster nicht automatisch mit dem neuen Munge-Schlüssel aktualisiert. Um den neuen Munge-Schlüssel ARN des Secrets zu verwenden, müssen Sie die Compute-Flotte und die Anmeldeknoten stoppen und dann den folgenden Befehl vom Hauptknoten aus ausführen.

sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh

Nachdem Sie den Befehl ausgeführt haben, können Sie sowohl die Rechenflotte als auch die Anmeldeknoten wieder aufnehmen: Die neu bereitgestellten Rechen- und Anmeldeknoten werden automatisch mit dem neuen Munge-Schlüssel gestartet.

Um einen Base64-codierten benutzerdefinierten Munge-Schlüssel zu generieren, können Sie das im Lieferumfang der Munge-Software enthaltene Mungekey-Hilfsprogramm verwenden und es dann mit dem Base64-Hilfsprogramm codieren, das allgemein in Ihrem Betriebssystem verfügbar ist. Alternativ können Sie entweder bash verwenden (bitte setzen Sie den bs-Parameter zwischen 32 und 1024)

dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0

oder Python wie folgt:

import random import os import base64 # key length in bytes key_length=128 base64.b64encode(os.urandom(key_length)).decode("utf-8")

Richtlinie aktualisieren: NEW UPDATE POLICY WITH COMPUTE FLEET AND LOGIN NODES STOPPED (fälschlicherweise nicht in 3.7.0 hinzugefügt).

QueueUpdateStrategy(Fakultativ,) String

Gibt die Ersatzstrategie für die SlurmQueues Abschnittsparameter an, für die die folgende Aktualisierungsrichtlinie gilt:

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt oder QueueUpdateStrategy eingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Der QueueUpdateStrategy Wert wird nur verwendet, wenn ein Cluster-Aktualisierungsprozess gestartet wird.

Zulässige Werte: COMPUTE_FLEET_STOP | DRAIN | TERMINATE

Standardwert: COMPUTE_FLEET_STOP

DRAIN

Knoten in Warteschlangen mit geänderten Parameterwerten sind auf DRAINING eingestellt. Knoten in diesem Status akzeptieren keine neuen Jobs und laufende Jobs werden bis zum Abschluss fortgesetzt.

Wenn ein Knoten zu idle (DRAINED) wird, wird ein Knoten ersetzt, wenn es sich um einen statischen Knoten handelt, und der Knoten wird beendet, wenn der Knoten dynamisch ist. Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.

Die Zeit, die diese Strategie benötigt, um alle Warteschlangenknoten durch geänderte Parameterwerte zu ersetzen, hängt von der laufenden Arbeitslast ab.

COMPUTE_FLEET_STOP

Der Standardwert des QueueUpdateStrategy Parameters. Bei dieser Einstellung müssen Sie zum Aktualisieren der Parameter SlurmQueues im Abschnitt die Rechenflotte beenden, bevor Sie ein Cluster-Update durchführen:

$ pcluster update-compute-fleet --status STOP_REQUESTED
TERMINATE

In Warteschlangen mit geänderten Parameterwerten werden laufende Jobs beendet und die Knoten werden sofort heruntergefahren.

Statische Knoten werden ersetzt und dynamische Knoten werden beendet.

Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.

Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.

Anmerkung

QueueUpdateStrategywird ab AWS ParallelCluster Version 3.2.0 unterstützt.

EnableMemoryBasedScheduling(Fakultativ,Boolean)

Wenn true die speicherbasierte Planung aktiviert ist in Slurm. Weitere Informationen finden Sie unter SlurmQueues/ComputeResources/SchedulableMemory.

Der Standardwert ist false.

Warnung

Die Aktivierung der speicherbasierten Planung wirkt sich auf die Art und Weise aus, wie Slurm Der Scheduler verarbeitet Jobs und die Knotenzuweisung.

Weitere Informationen finden Sie unter Slurmspeicherbasierte Terminplanung.

Anmerkung

EnableMemoryBasedSchedulingwird ab AWS ParallelCluster Version 3.2.0 unterstützt.

Anmerkung

Ab AWS ParallelCluster Version 3.7.0 EnableMemoryBasedScheduling kann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

CustomSlurmSettings(Optional,[Dict])

Definiert den Benutzerdefiniert Slurm Einstellungen, die für den gesamten Cluster gelten.

Gibt eine Liste von an Slurm Konfigurationswörterbücher mit Schlüssel-Wert-Paaren, die an das Ende der generierten Datei angehängt werden. slurm.conf AWS ParallelCluster

Jedes Wörterbuch in der Liste erscheint als separate Zeile, die dem Slurm Konfigurationsdatei. Sie können entweder einfache oder komplexe Parameter angeben.

Einfache Parameter bestehen aus einem einzigen key pair, wie in den folgenden Beispielen gezeigt:

- Param1: 100 - Param2: "SubParam1,SubParam2=SubValue2"

Beispiel gerendert in Slurm Konfiguration:

Param1=100 Param2=SubParam1,SubParam2=SubValue2

Komplex Slurm Konfigurationsparameter bestehen aus mehreren durch Leerzeichen getrennten Schlüssel-Wert-Paaren, wie in den nächsten Beispielen gezeigt:

- NodeName: test-nodes[1-10] CPUs: 4 RealMemory: 4196 ... # other node settings - NodeSet: test-nodeset Nodes: test-nodes[1-10] ... # other nodeset settings - PartitionName: test-partition Nodes: test-nodeset ... # other partition settings

Beispiel, gerendert in Slurm Konfiguration:

NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings PartitionName=test-partition Nodes=test-nodeset ... # other partition settings
Anmerkung

Benutzerdefiniert Slurm Knoten dürfen die -dy- Muster -st- oder nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.

Wenn Sie Benutzerdefiniert angeben Slurm Konfigurationsparameter inCustomSlurmSettings, Sie dürfen keine benutzerdefinierten Parameter angeben Slurm Konfigurationsparameter fürCustomSlurmSettingsIncludeFile.

Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen. CustomSlurmSettings Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettings

AWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.

Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.

Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf im Slurm -Dokumentation.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

CustomSlurmSettingsIncludeFile(Fakultativ,String)

Definiert den Benutzerdefiniert Slurm Einstellungen, die für den gesamten Cluster gelten.

Gibt das benutzerdefinierte an Slurm Datei bestehend aus benutzerdefinierten Slurm Konfigurationsparameter, die am Ende der AWS ParallelCluster generierten slurm.conf Datei angehängt werden.

Sie müssen den Pfad zur Datei angeben. Der Pfad kann mit https:// oder beginnens3://.

Wenn Sie Benutzerdefiniert angeben Slurm Konfigurationsparameter fürCustomSlurmSettingsIncludeFile, Sie dürfen keine benutzerdefinierten Parameter angeben Slurm Konfigurationsparameter fürCustomSlurmSettings.

Anmerkung

Benutzerdefiniert Slurm Knoten dürfen die -dy- Muster -st- oder nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.

Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen. CustomSlurmSettingsIncludeFile Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettings

AWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.

Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.

Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf im Slurm -Dokumentation.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

Database

(Optional) Definiert die zu aktivierenden Einstellungen Slurm Buchhaltung auf dem Cluster. Weitere Informationen finden Sie unter Slurm Abrechnung mit AWS ParallelCluster.

Database: Uri: string UserName: string PasswordSecretArn: string

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Database-Eigenschaften

Uri(Erforderlich,String)

Die Adresse des Datenbankservers, der als Backend verwendet wird für Slurm Buchhaltung. Dies URI muss als formatiert sein host:port und darf kein Schema enthalten, wie mysql:// z. Der Host kann entweder eine IP-Adresse oder ein DNS Name sein, der vom Hauptknoten aufgelöst werden kann. Wenn kein Port bereitgestellt wird, AWS ParallelCluster verwendet MySQL Standardport 3306.

AWS ParallelCluster bootet das Slurm die Accounting-Datenbank für den Cluster und muss auf die Datenbank zugreifen.

Die Datenbank muss erreichbar sein, bevor Folgendes passiert:

  • Ein Cluster wird erstellt.

  • Slurm Die Kontoführung wird mit einem Cluster-Update aktiviert.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

UserName(Erforderlich,String)

Die Identität, die Slurm verwendet, um eine Verbindung mit der Datenbank herzustellen, Kontoführungsprotokolle zu schreiben und Abfragen durchzuführen. Der Benutzer muss sowohl Lese- als auch Schreibberechtigungen für die Datenbank haben.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

PasswordSecretArn(Erforderlich,String)

Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Geheimnisses, das das UserName Klartext-Passwort enthält. Dieses Passwort wird zusammen mit UserName und verwendet Slurm Accounting zur Authentifizierung auf dem Datenbankserver.

Anmerkung

Achten Sie beim Erstellen eines Geheimnisses mit der AWS Secrets Manager Konsole darauf, dass Sie „Anderer Geheimtyp“ und Klartext auswählen und nur den Passworttext in das Geheimnis aufnehmen.

Weitere Informationen zur Erstellung eines Geheimnisses finden Sie AWS Secrets Manager unter Create an AWS Secrets Manager Secret

Ob der Benutzer dazu berechtigt PasswordSecretArn ist DescribeSecret, wird überprüft. PasswordSecretArnist gültig, wenn das angegebene Geheimnis existiert. Wenn die IAM Benutzerrichtlinie dies nicht beinhaltetDescribeSecret, PasswordSecretArn nicht validiert wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.

Wenn Sie ein Update PasswordSecretArn durchführen, muss die Rechenflotte gestoppt werden. Wenn sich der geheime Wert ändert und der geheime Schlüssel sich ARN nicht ändert, wird der Cluster nicht automatisch mit dem neuen Datenbankkennwort aktualisiert. Um den Cluster für den neuen geheimen Wert zu aktualisieren, müssen Sie den folgenden Befehl vom Hauptknoten aus ausführen, nachdem die Compute-Flotte gestoppt wurde.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Warnung

Wir empfehlen, das Datenbankkennwort nur zu ändern, wenn die Rechenflotte gestoppt ist, um den Verlust von Buchhaltungsdaten zu vermeiden.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

DatabaseName(Fakultativ,String)

Name der Datenbank auf dem Datenbankserver (definiert durch den Parameter Uri), für die verwendet werden soll Slurm Buchhaltung.

Der Name der Datenbank kann Kleinbuchstaben, Zahlen und Unterstriche enthalten. Der Name darf nicht länger als 64 Zeichen sein.

Dieser Parameter ist dem StorageLoc Parameter von slurmdbd.conf zugeordnet.

Wenn DatabaseName nicht angegeben, ParallelCluster wird der Name des Clusters verwendet, um einen Wert für zu definieren. StorageLoc

Die Aktualisierung von DatabaseName ist zulässig, wobei die folgenden Überlegungen zu beachten sind:

  • Wenn eine Datenbank mit einem Namen noch DatabaseName nicht auf dem Datenbankserver existiert, erstellt slurmdbd sie. Es liegt in Ihrer Verantwortung, die neue Datenbank nach Bedarf neu zu konfigurieren (z. B. Hinzufügen der Buchhaltungseinheiten — Cluster, Konten, BenutzerQOSs, Assoziationen usw.).

  • Wenn auf dem Datenbankserver DatabaseName bereits eine Datenbank mit einem Namen existiert, verwendet slurmdbd sie für Slurm Buchhaltungsfunktionen.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Databasewird ab Version 3.3.0 hinzugefügt.

ExternalSlurmdbd

(Optional) Definiert die zu aktivierenden Einstellungen Slurm Abrechnung mit einem externen Slurmdbd-Server. Weitere Informationen finden Sie unter Slurm Buchhaltung mit. AWS ParallelCluster

ExternalSlurmdbd: Host: string Port: integer

ExternalSlurmdbd-Eigenschaften

Host(Erforderlich,String)

Die Adresse des externen Slurmdbd-Servers für Slurm Buchhaltung. Der Host kann entweder eine IP-Adresse oder ein DNS Name sein, der vom Hauptknoten aufgelöst werden kann.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Port(Optional,Integer)

Der Port, auf den der Slurmdbd-Dienst hört. Der Standardwert ist 6819.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Dns

(Optional) Definiert die Einstellungen für Slurm die für den gesamten Cluster gelten.

Dns: DisableManagedDns: boolean HostedZoneId: string UseEc2Hostnames: boolean

Dns-Eigenschaften

DisableManagedDns(Fakultativ,Boolean)

Wenntrue, die DNS Einträge für den Cluster nicht erstellt wurden und Slurm Knotennamen sind nicht auflösbar.

AWS ParallelCluster Erstellt standardmäßig eine Route 53-Hosting-Zone, in der Knoten beim Start registriert werden. Der Standardwert ist false. Wenn auf gesetzt DisableManagedDns isttrue, wird die Hosting-Zone nicht von erstellt AWS ParallelCluster.

Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.

Warnung

Für den ordnungsgemäßen Betrieb des Clusters ist ein System zur Namensauflösung erforderlich. Wenn auf gesetzt DisableManagedDns isttrue, müssen Sie ein System zur Namensauflösung bereitstellen. Um den EC2 Amazon-Standard zu verwendenDNS, stellen Sie ihn UseEc2Hostnames auf eintrue. Alternativ können Sie Ihren eigenen DNS Resolver konfigurieren und sicherstellen, dass die Knotennamen registriert werden, wenn Instances gestartet werden. Sie können dies beispielsweise tun, indem Sie CustomActions/OnNodeStartkonfigurieren.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

HostedZoneId(Fakultativ,String)

Definiert eine benutzerdefinierte Route 53-Hosting-Zonen-ID, die für die DNS Namensauflösung für den Cluster verwendet wird. Falls angegeben, werden Clusterknoten in der angegebenen Hosting-Zone AWS ParallelCluster registriert und keine verwaltete Hosting-Zone erstellt.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

UseEc2Hostnames(Optional,Boolean)

Fallstrue, sind Cluster-Rechenknoten mit dem EC2 Standard-Hostnamen konfiguriert. Das Tool Slurm NodeHostNamewird ebenfalls mit diesen Informationen aktualisiert. Der Standardwert ist false.

Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.

Anmerkung

Dieser Hinweis ist ab AWS ParallelCluster Version 3.3.0 nicht relevant.

Für AWS ParallelCluster unterstützte Versionen vor 3.3.0:

Wenn auf gesetzt UseEc2Hostnames isttrue, wird die Slurm-Konfigurationsdatei mit den Skripten AWS ParallelCluster prolog und epilog gesetzt:

  • prologwird ausgeführt, um Knoteninformationen zu /etc/hosts den Rechenknoten hinzuzufügen, wenn jeder Job zugewiesen ist.

  • epilogwird ausgeführt, um Inhalte zu bereinigen, die von geschrieben wurdenprolog.

Um benutzerdefinierte epilog Skripts prolog oder Skripts hinzuzufügen, fügen Sie sie den jeweiligen /opt/slurm/etc/pcluster/epilog.d/ Ordnern /opt/slurm/etc/pcluster/prolog.d/ oder hinzu.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.