Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Scheduling
Abschnitt
(Erforderlich) Definiert den Job Scheduler, der im Cluster verwendet wird, und die Compute-Instances, die der Job Scheduler verwaltet. Sie können entweder den Slurm oder AWS Batch Scheduler. Jedes unterstützt einen anderen Satz von Einstellungen und Eigenschaften.
Scheduling: Scheduler: slurm ScalingStrategy:
string
SlurmSettings: MungeKeySecretArn:string
ScaledownIdletime:integer
QueueUpdateStrategy:string
EnableMemoryBasedScheduling:boolean
CustomSlurmSettings:[dict]
CustomSlurmSettingsIncludeFile:string
Database: Uri:string
UserName:string
PasswordSecretArn:string
DatabaseName:string
ExternalSlurmdbd:boolean
Host:string
Port:integer
Dns: DisableManagedDns:boolean
HostedZoneId:string
UseEc2Hostnames:boolean
SlurmQueues: - Name:string
ComputeSettings: LocalStorage: RootVolume: Size:integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
CapacityType:string
AllocationStrategy:string
JobExclusiveAllocation:boolean
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
HealthChecks: Gpu: Enabled:boolean
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
ComputeResources: - Name:string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
CustomActions: OnNodeStart: Sequence: - Script:string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
Iam: InstanceProfile:string
InstanceRole:string
S3Access: - BucketName:string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
Image: CustomAmi:string
Scheduling: Scheduler: awsbatch AwsBatchQueues: - Name:
string
CapacityType:string
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
Scheduling
-Eigenschaften
Scheduler
(Erforderlich,String
)-
Gibt den Typ des verwendeten Schedulers an. Unterstützte Werte sind
slurm
undawsbatch
.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
Anmerkung
awsbatch
unterstützt nur dasalinux2
Betriebssystem und diex86_64
Plattform. ScalingStrategy
(Fakultativ,String
)-
Ermöglicht es Ihnen zu wählen, wie dynamisch Slurm Knoten werden vergrößert. Unterstützte Werte sind
all-or-nothing
,greedy-all-or-nothing
undbest-effort
Der Standardwert istall-or-nothing
.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
Die Skalierungsstrategie gilt nur für Knoten, die von Slurm wieder aufgenommen werden sollen, nicht für Knoten, die irgendwann schon laufen.
-
all-or-nothing
Diese Strategie folgt strikt einer all-or-nothing-approach, die darauf abzielt, inaktive Instanzen am Ende des Skalierungsprozesses zu vermeiden. Sie arbeitet auf einer all-or-nothing Basis, was bedeutet, dass sie entweder vollständig oder gar nicht skaliert wird. Beachten Sie, dass aufgrund vorübergehend gestarteter Instances zusätzliche Kosten anfallen können, wenn Jobs mehr als 500 Knoten erfordern oder sich über mehrere Rechenressourcen erstrecken. Diese Strategie hat den niedrigsten Durchsatz unter den drei möglichen Skalierungsstrategien. Die Skalierungszeit hängt von der Anzahl der pro Paket eingereichten Jobs ab Slurm setzt die Programmausführung fort. Außerdem können Sie nicht weit über das Standardlimit für RunInstances Ressourcenkonten pro Ausführung hinaus skalieren, das standardmäßig bei 1000 Instanzen liegt. Weitere Informationen finden Sie in der EC2APIAmazon-Drosselungsdokumentation -
greedy-all-or-nothing
Ähnlich wie bei der all-or-nothing Strategie zielt sie darauf ab, Instances im Leerlauf nach der Skalierung zu vermeiden. Diese Strategie ermöglicht eine vorübergehende Überskalierung während des Skalierungsprozesses, um einen höheren Durchsatz als bei der all-or-nothing Methode zu erreichen, hat aber auch dasselbe Skalierungslimit von 1000 Instanzen wie beim RunInstances Ressourcenkontolimit. -
best-effort
Bei dieser Strategie wird ein hoher Durchsatz priorisiert, auch wenn dies bedeutet, dass einige Instanzen am Ende des Skalierungsprozesses möglicherweise inaktiv sind. Es wird versucht, so viele Knoten zuzuweisen, wie von den Jobs angefordert werden, aber es besteht die Möglichkeit, dass nicht die gesamte Anfrage erfüllt wird. Im Gegensatz zu den anderen Strategien können beim Best-Effort-Ansatz mehr Instanzen als das RunInstances Standardlimit akkumuliert werden, allerdings auf Kosten ungenutzter Ressourcen während der Ausführung mehrerer Skalierungsprozesse.
-
Jede Strategie ist so konzipiert, dass sie unterschiedlichen Skalierungsanforderungen gerecht wird, sodass Sie eine auswählen können, die Ihren spezifischen Anforderungen und Einschränkungen entspricht.
AwsBatchQueues
(Optional) Die AWS Batch Warteschlangeneinstellungen. Es wird nur eine Warteschlange unterstützt. Wenn auf gesetzt Scheduleristawsbatch
, ist dieser Abschnitt erforderlich. Weitere Informationen zum awsbatch
Scheduler finden Sie unter Netzwerk-Setup undVerwenden des AWS Batch (awsbatch) -Schedulers mit AWS ParallelCluster.
AwsBatchQueues: - Name:
string
CapacityType:string
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AwsBatchQueues
-Eigenschaften
Name
(Erforderlich,String
)-
Der Name der AWS Batch Warteschlange.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
CapacityType
(Fakultativ,String
)-
Der Typ der Rechenressourcen, die die AWS Batch Warteschlange verwendet. Unterstützte Werte sind
ONDEMAND
,SPOT
oderCAPACITY_BLOCK
. Der Standardwert istONDEMAND
.Anmerkung
Wenn Sie diese Einstellung
CapacityType
auf festlegenSPOT
, muss Ihr Konto eineAWSServiceRoleForEC2Spot
dienstbezogene Rolle enthalten. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.$
aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.goskope.comWeitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.
Networking
(Erforderlich) Definiert die Netzwerkkonfiguration für die AWS Batch Warteschlange.
Networking: SubnetIds: -
string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
Networking
-Eigenschaften
SubnetIds
(Erforderlich,[String]
)-
Gibt die ID eines vorhandenen Subnetzes an, in dem die AWS Batch Warteschlange bereitgestellt werden soll. Derzeit wird nur ein Subnetz unterstützt.
AssignPublicIp
(Fakultativ,String
)-
Erzeugt oder weist den Knoten in der AWS Batch Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind
true
undfalse
. Die Standardeinstellung hängt von dem Subnetz ab, das Sie angegeben haben.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
SecurityGroups
(Optional,[String]
)-
Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet. Wenn Sie keine Sicherheitsgruppen angeben, AWS ParallelCluster erstellt neue Sicherheitsgruppen.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalSecurityGroups
(Optional,[String]
)-
Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
ComputeResources
(Erforderlich) Definiert die ComputeResources Konfiguration für die AWS Batch Warteschlange.
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:
string
InstanceTypes: -string
MinvCpus:integer
DesiredvCpus:integer
MaxvCpus:integer
SpotBidPercentage:float
ComputeResources
-Eigenschaften
Name
(Erforderlich,String
)-
Der Name der AWS Batch Warteschlangencomputer-Umgebung.
InstanceTypes
(Erforderlich,[String]
)-
Das Array der Instanztypen für die AWS Batch Rechenumgebung. Alle Instanztypen müssen die
x86_64
Architektur verwenden. MinvCpus
(Fakultativ,Integer
)-
Die MindestanzahlVCPUs, die eine AWS Batch Rechenumgebung verwenden kann.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
DesiredVcpus
(Optional,Integer
)-
Die gewünschte Anzahl von VCPUs in der AWS Batch Rechenumgebung. AWS Batch passt diesen Wert zwischen
MinvCpus
undMaxvCpus
basierend auf der Nachfrage in der Auftragswarteschlange an.Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.
MaxvCpus
(Fakultativ,Integer
)-
Die maximale Anzahl von VCPUs für die AWS Batch Rechenumgebung. Sie können diesen Wert nicht auf einen Wert setzen, der niedriger ist als
DesiredVcpus
.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates nicht verringert werden.
SpotBidPercentage
(Fakultativ,Float
)-
Der maximale Prozentsatz des On-Demand-Preises für den Instance-Typ, den ein Amazon EC2 Spot-Instance-Preis erreichen kann, bevor Instances gestartet werden. Der Standardwert ist
100
(100%). Der unterstützte Bereich ist1
-100
.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SlurmQueues
(Optional) Einstellungen für Slurm Warteschlange. Wenn auf eingestellt Scheduleristslurm
, ist dieser Abschnitt erforderlich.
SlurmQueues: - Name:
string
ComputeSettings: LocalStorage: RootVolume: Size:integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
CapacityType:string
AllocationStrategy:string
JobExclusiveAllocation:boolean
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
HealthChecks: Gpu: Enabled:boolean
Networking: SubnetIds: -string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
ComputeResources: - Name:string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
CustomActions: OnNodeStart: Sequence: - Script:string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
Iam: InstanceProfile:string
InstanceRole:string
S3Access: - BucketName:string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
Image: CustomAmi:string
SlurmQueues
-Eigenschaften
Name
(Erforderlich,String
)-
Der Name des Slurm Warteschlange.
Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
CapacityReservationTarget
-
Anmerkung
CapacityReservationTarget
wird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.CapacityReservationTarget: CapacityReservationId:
string
CapacityReservationResourceGroupArn:string
Gibt die On-Demand-Kapazitätsreservierung für die Rechenressourcen der Warteschlange an.
CapacityReservationId
(Optional,String
)-
Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf einen ODCRoder einen Kapazitätsblock für ML beziehen.
Die Reservierung muss dieselbe Plattform verwenden, die die Instanz verwendet. Wenn Ihre Instances beispielsweise ausgeführt werden
rhel8
, muss Ihre Kapazitätsreservierung auf der Red Hat Enterprise Linux-Plattform laufen. Weitere Informationen finden Sie unter Unterstützte Plattformen im EC2Amazon-Benutzerhandbuch für Linux-Instances.Anmerkung
Wenn Sie diese Einstellung Instancesin die Cluster-Konfiguration einbeziehen, müssen Sie diese
CapacityReservationId
Einstellung für die Warteschlangenebene aus der Konfiguration ausschließen. CapacityReservationResourceGroupArn
(Optional,String
)-
Der Amazon-Ressourcenname (ARN) der Ressourcengruppe, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressourcen der Warteschlange dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Ressourcengruppe auf der Grundlage der folgenden Bedingungen:
-
Wenn in SlurmQueues/Networkingoder SlurmQueues//aktiviert
PlacementGroup
ist Networking, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt, die auf den Instanztyp abzielt, undPlacementGroup
für eine Rechenressource, falls die Rechenressource vorhanden ist. ComputeResourcesDas
PlacementGroup
muss auf einen der Instanztypen abzielen, der in definiert ist ComputeResources. -
Wenn es in SlurmQueues/Networkingoder SlurmQueues//
PlacementGroup
nicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern die Rechenressource existiert. ComputeResources
In der Ressourcengruppe muss mindestens eine ODCR für jeden Instanztyp in einer Availability Zone für alle Rechenressourcen und Availability Zones der Warteschlange reserviert sein. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
Weitere Informationen zu den Konfigurationsanforderungen für mehrere Subnetze finden Sie unter Networking/SubnetIds.
Anmerkung
In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.
-
CapacityType
(Fakultativ,String
)-
Der Typ der Rechenressourcen, die Slurm Warteschlange verwendet. Unterstützte Werte sind
ONDEMAND
,SPOT
oderCAPACITY_BLOCK
. Der Standardwert istONDEMAND
.Anmerkung
Wenn Sie das
CapacityType
auf setzenSPOT
, muss Ihr Konto über eineAWSServiceRoleForEC2Spot
dienstbezogene Rolle verfügen. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.$
aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.goskope.comWeitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.
AllocationStrategy
(Fakultativ,String
)-
Geben Sie die Zuweisungsstrategie für alle Rechenressourcen an, die in definiert sind Instances.
Zulässige Werte:
lowest-price
|capacity-optimized
|price-capacity-optimized
Standard:
lowest-price
lowest-price
-
-
Wenn Sie dies verwenden
CapacityType = ONDEMAND
, verwendet Amazon EC2 Fleet den Preis, um die Bestellung zu bestimmen, und startet zuerst die Instances mit dem niedrigsten Preis. -
Wenn Sie dies verwenden
CapacityType = SPOT
, startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Wenn die Kapazität eines Pools knapp wird, bevor Ihre erforderliche Kapazität erreicht ist, erfüllt Amazon EC2 Fleet Ihre Anfrage, indem es Instances für Sie startet. Insbesondere startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Amazon EC2 Fleet kann Spot-Instances aus mehreren verschiedenen Pools starten. -
Wenn Sie festlegen
CapacityType = CAPACITY_BLOCK
, gibt es keine Zuweisungsstrategien, daher kann derAllocationStrategy
Parameter nicht konfiguriert werden.
-
capacity-optimized
-
-
Wenn Sie festlegen
CapacityType = ONDEMAND
,capacity-optimized
ist es nicht verfügbar. -
Wenn Sie diese Option festlegen
CapacityType = SPOT
, startet Amazon EC2 Fleet Instances aus Spot-Instance-Pools mit optimaler Kapazität für die Anzahl der zu startenden Instances.
-
price-capacity-optimized
-
-
Wenn Sie festlegen
CapacityType = ONDEMAND
,capacity-optimized
ist es nicht verfügbar. -
Wenn Sie diese Option festlegen
CapacityType = SPOT
, identifiziert Amazon EC2 Fleet die Pools mit der höchsten Kapazitätsverfügbarkeit für die Anzahl der Instances, die gestartet werden. Das bedeutet, dass wir Spot Instances aus den Pools anfordern werden, von denen wir glauben, dass die Wahrscheinlichkeit einer kurzfristigen Unterbrechung am geringsten ist. Amazon EC2 Fleet fordert dann Spot-Instances aus den Pools mit dem niedrigsten Preis an.
-
Anmerkung
AllocationStrategy
wird ab AWS ParallelCluster Version 3.3.0 unterstützt. JobExclusiveAllocation
(Fakultativ,String
)-
Wenn auf gesetzt
true
, Slurm DasOverSubscribe
Partitionsflag ist auf gesetztEXCLUSIVE
. WennOverSubscribe
=EXCLUSIVE
, haben Jobs in der Partition exklusiven Zugriff auf alle zugewiesenen Knoten. Weitere Informationen finden Sie EXCLUSIVEin der Slurm -Dokumentation. Zulässige Werte:
true
|false
Standard:
false
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
JobExclusiveAllocation
wird ab AWS ParallelCluster Version 3.7.0 unterstützt. CustomSlurmSettings
(Fakultativ,Dict
)-
Definiert den Benutzerdefiniert Slurm Konfigurationseinstellungen für die Partition (Warteschlange).
Gibt ein benutzerdefiniertes Wörterbuch an Slurm Schlüssel-Wert-Paare für Konfigurationsparameter, die für Warteschlangen (Partitionen) gelten.
Jedes einzelne Schlüssel-Wert-Paar, z. B.
Param1: Value1
, wird separat am Ende des Slurm Partitionskonfigurationszeile im Format.Param1=Value1
Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen.
CustomSlurmSettings
Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.
Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf
im Slurm -Dokumentation. Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettings
wird ab Version 3.6.0 unterstützt. AWS ParallelCluster Tags
(Optional, [Zeichenfolge])-
Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder in
SlurmQueues
/angegeben sind.Tags
Key
(Optional,String
)-
Der Tag-Schlüssel.
Value
(Fakultativ,String
)-
Der Tag-Wert.
HealthChecks
(Fakultativ)-
Geben Sie Integritätsprüfungen für Rechenknoten für alle Rechenressourcen in der Warteschlange an.
Gpu
(Fakultativ)-
Geben Sie GPU Integritätsprüfungen für alle Rechenressourcen in einer Warteschlange an.
Anmerkung
AWS ParallelCluster unterstützt
HealthChecks
/nichtGpu
in Knoten, diealinux2
ARM Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIAData Center GPU Manager (DCGM)nicht. Enabled
(Fakultativ,Boolean
)-
Gibt an AWS ParallelCluster , ob GPU Integritätsprüfungen an Rechenknoten durchgeführt werden. Der Standardwert ist
false
.
Gpu
Verhalten bei der Integritätsprüfung-
Wenn
Gpu
/auf gesetztEnabled
isttrue
, werden AWS ParallelCluster GPU Integritätsprüfungen für Rechenressourcen in der Warteschlange durchgeführt. -
Bei der
Gpu
Integritätsprüfung werden GPU Zustandsprüfungen für Rechenressourcen durchgeführt, um zu verhindern, dass Jobs auf Knoten mit einem heruntergestuften Status weitergeleitet werdenGPU. -
Wenn ein Rechenknoten eine
Gpu
Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN
. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt. -
Die Dauer der
Gpu
Integritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen und der Anzahl derGpu
Integritätsprüfungsziele ab (entspricht der Anzahl der GPU Jobziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten. -
Wenn die
Gpu
Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine hatGPU, oder, wenn eine Instanz eine hat, es aber keine istGPU, wird die NVIDIA GPU Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA GPUs werden unterstützt. -
Die
Gpu
Integritätsprüfung verwendet dasdcgmi
Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:Wenn die
Gpu
Zustandsprüfung in einem Knoten beginnt:-
Es erkennt, ob die
nvidia-fabricmanager
Dienstenvidia-dcgm
und ausgeführt werden. -
Wenn diese Dienste nicht ausgeführt werden, werden sie durch die
Gpu
Integritätsprüfung gestartet. -
Es erkennt, ob der Persistenzmodus aktiviert ist.
-
Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die
Gpu
Integritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die
Gpu
Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt. -
-
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen istGPUs, wird die
Gpu
Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird dieGpu
Integritätsprüfung für alle GPUs Knoten ausgeführt. -
Wenn ein Rechenknoten zwei oder mehr
Gpu
Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen. -
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der
/var/log/parallelcluster/slurm_health_check.log
Datei verfügbar. Die Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:-
Einzelheiten zu der Aktion, die im Rahmen der
Gpu
Integritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus. -
Der GPU Bezeichner, die Seriennummer und die. UUID
-
Die Ausgabe des Integritätschecks.
-
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
HealthChecks
wird ab AWS ParallelCluster Version 3.6.0 unterstützt.
Networking
(Erforderlich) Definiert die Netzwerkkonfiguration für Slurm Warteschlange.
Networking: SubnetIds: -
string
AssignPublicIp:boolean
SecurityGroups: -string
AdditionalSecurityGroups: -string
PlacementGroup: Enabled:boolean
Id:string
Name:string
Proxy: HttpProxyAddress:string
Networking
-Eigenschaften
SubnetIds
(Erforderlich,[String]
)-
Die IDs der vorhandenen Subnetze, die Sie bereitstellen Slurm in die Warteschlange.
Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren InstanceType, können Sie nur ein Subnetz definieren.
Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren Instances, können Sie ein einzelnes Subnetz oder mehrere Subnetze definieren.
Wenn Sie mehrere Subnetze verwenden, müssen sich alle für eine Warteschlange definierten Subnetze in demselben befindenVPC, wobei sich jedes Subnetz in einer separaten Availability Zone (AZ) befindet.
Nehmen wir beispielsweise an, Sie definieren Subnetz-1 und Subnetz-2 für Ihre Warteschlange.
subnet-1
undsubnet-2
können nicht beide in AZ-1 sein.subnet-1
kann in AZ-1 sein undsubnet-2
kann in AZ-2 sein.Wenn Sie nur einen Instance-Typ konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instance-Typ in
Instances
und nicht.InstanceType
Definieren Sie beispielsweise
ComputeResources
/Instances
/InstanceType
=instance.type
stattComputeResources
/InstanceType
=instance.type
.Anmerkung
Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt.
Die Verwendung mehrerer Availability Zones kann zu einer Erhöhung der Speichernetzwerklatenz und zu zusätzlichen Kosten für die Datenübertragung zwischen den einzelnen AZ-Datenbanken führen. Dies könnte beispielsweise der Fall sein, wenn eine Instance auf einen Dateispeicher zugreift, der sich in einer anderen AZ befindet. Weitere Informationen finden Sie unter Datenübertragung innerhalb derselben AWS-Region
. Cluster-Updates zur Umstellung von der Verwendung eines einzelnen Subnetzes auf mehrere Subnetze:
-
Angenommen, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem FSx für Lustre AWS ParallelCluster verwalteten Dateisystem definiert. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um das Cluster-Update durchzuführen, müssen Sie zuerst das verwaltete Dateisystem in ein externes Dateisystem ändern. Weitere Informationen finden Sie unter Konvertiert AWS ParallelCluster verwalteten Speicher in externen Speicher.
-
Nehmen wir an, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem externen EFS Amazon-Dateisystem definiert, falls nicht EFS Mount-Ziele für alle der AZs mehreren Subnetze existieren, die hinzugefügt werden sollen. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um den Cluster zu aktualisieren oder einen Cluster zu erstellen, müssen Sie zunächst alle Mount-Ziele für alle der AZs definierten mehreren Subnetze erstellen.
Availability Zones und Cluster-Kapazitätsreservierungen, definiert in CapacityReservationResourceGroupArn:
-
Sie können keinen Cluster erstellen, wenn es keine Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt.
-
Sie können einen Cluster erstellen, wenn es eine teilweise Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt. AWS ParallelCluster sendet in diesem Fall eine Warnmeldung über die teilweise Überlappung.
-
Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
Anmerkung
In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.
Warnung
Diese Warnung gilt für alle AWS ParallelCluster 3.x.y-Versionen vor Version 3.3.1. AWS ParallelCluster Version 3.3.1 ist nicht betroffen, wenn dieser Parameter geändert wird.
Für AWS ParallelCluster 3 Versionen vor Version 3.3.1:
Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende FSx für Lustre verwaltete Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Bevor Sie fortfahren, stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten beibehalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSxfor Lustre-Benutzerhandbuch.
Wenn ein neuer Subnetzwert hinzugefügt wird, Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Wenn ein Subnetzwert entfernt wird, Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.
-
AssignPublicIp
(Fakultativ,String
)-
Erzeugt oder weist den Knoten in der eine öffentliche IP-Adresse zu Slurm Warteschlange. Unterstützte Werte sind
true
undfalse
. Das von Ihnen angegebene Subnetz bestimmt den Standardwert. Ein Subnetz mit öffentlicher IPs Standardeinstellung für die Zuweisung öffentlicher IP-Adressen.Wenn Sie eine definieren p4d or hpc6id Für den Instanztyp oder einen anderen Instanztyp mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie HeadNode/Networking/auf setzen, ElasticIp
true
um öffentlichen Zugriff zu gewähren. AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. In diesem Fall empfehlen wir, ein NATGateway zu verwenden, um öffentlichen Zugriff auf die Cluster-Rechenknoten zu gewähren. Stellen Sie in diesem FallAssignPublicIp
auf einfalse
. Weitere Informationen zu IP-Adressen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
SecurityGroups
(Optional,[String]
)-
Eine Liste der Sicherheitsgruppen, die für die verwendet werden sollen Slurm Warteschlange. Wenn keine Sicherheitsgruppen angegeben sind, AWS ParallelCluster erstellt es Sicherheitsgruppen für Sie.
Stellen Sie sicher, dass die Sicherheitsgruppen für Ihre SharedStorageSysteme korrekt konfiguriert sind.
Warnung
Diese Warnung gilt für alle 3.
x
.y
AWS ParallelCluster Versionen vor Version 3.3.0. AWS ParallelCluster Version 3.3.0 ist nicht betroffen, wenn dieser Parameter geändert wird.Für AWS ParallelCluster 3 Versionen vor Version 3.3.0:
Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende FSx für Lustre verwaltete Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten erhalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSxfor Lustre-Benutzerhandbuch.
Warnung
Wenn Sie Efa für Ihre Compute-Instances aktivieren, stellen Sie sicher, dass Ihre EFA -fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalSecurityGroups
(Optional,)[String]
-
Eine Liste zusätzlicher Sicherheitsgruppen, die für die verwendet werden können Slurm Warteschlange.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
PlacementGroup
(Fakultativ)-
Definiert die Platzierungsgruppeneinstellungen für Slurm Warteschlange.
PlacementGroup: Enabled:
boolean
Id:string
Name:string
Enabled
(Optional,Boolean
)-
Gibt an, ob eine Platzierungsgruppe verwendet wird für Slurm Warteschlange. Der Standardwert ist
false
. Id
(Fakultativ,String
)-
Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die Slurm Die Warteschlange verwendet. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.
Name
(Fakultativ,String
)-
Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die Slurm Die Warteschlange verwendet. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.
Anmerkung
-
Wenn
PlacementGroup
/auf gesetztEnabled
isttrue
, ohne dass einName
oderId
definiert ist, wird jeder Rechenressource ihre eigene verwaltete Platzierungsgruppe zugewiesen, es sei denn, ComputeResources/Networking/PlacementGroupist so definiert, dass es diese Einstellung überschreibt. -
Ab AWS ParallelCluster Version 3.3.0 Namewurde SlurmQueues/Networking/PlacementGroup/als bevorzugte Alternative zu SlurmQueues//NetworkingPlacementGroup/Idhinzugefügt.
PlacementGroup/Idund PlacementGroup/Namesind gleichwertig. Sie können beide verwenden.
Wenn Sie sowohl PlacementGroup/als auch PlacementGroup/Idangeben Name, AWS ParallelCluster schlägt dies fehl. Sie können nur das eine oder das andere wählen.
Sie müssen Ihren Cluster nicht aktualisieren, um PlacementGroup/verwenden zu können Name.
Proxy
(Fakultativ)-
Spezifiziert die Proxyeinstellungen für Slurm Warteschlange.
Proxy: HttpProxyAddress:
string
HttpProxyAddress
(Fakultativ,String
)-
Definiert einen HTTP HTTPS Oder-Proxyserver für Slurm Warteschlange. In der Regel ist es
https://
.x.x.x.x:8080
Es gibt keinen Standardwert.
Image
(Optional) Gibt das Bild an, das für das verwendet werden soll Slurm Warteschlange. Um dasselbe AMI für alle Knoten zu verwenden, verwenden Sie die CustomAmiEinstellung im ImageAbschnitt.
Image: CustomAmi:
string
Image
Eigenschaften
CustomAmi
(Fakultativ,String
)-
Das AMI zu verwendende für Slurm Warteschlange statt der StandardeinstellungAMIs. Sie können das pcluster CLIBefehl, um eine Liste der Standardwerte anzuzeigenAMIs.
Anmerkung
Der AMI muss auf demselben Betriebssystem basieren, das vom Hauptknoten verwendet wird.
pcluster list-official-images
Wenn für den Start der benutzerdefinierten Version zusätzliche Berechtigungen AMI erforderlich sind, müssen Sie diese Berechtigungen zur Richtlinie für den Hauptknoten hinzufügen.
Wenn einem benutzerdefinierten Benutzer beispielsweise AMI ein verschlüsselter Snapshot zugeordnet ist, sind die folgenden zusätzlichen Richtlinien in den Kopfknotenrichtlinien erforderlich.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:
<AWS_REGION>
:<AWS_ACCOUNT_ID>
:key/<AWS_KMS_KEY_ID>
" ] } ] }Informationen zur Fehlerbehebung bei benutzerdefinierten AMI Validierungswarnungen finden Sie unterBehebung benutzerdefinierter AMI Probleme.
ComputeResources
(Erforderlich) Definiert die ComputeResources
Konfiguration für Slurm Warteschlange.
Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
ComputeResources: - Name:
string
InstanceType:string
Instances: - InstanceType:string
MinCount:integer
MaxCount:integer
DynamicNodePriority:integer
StaticNodePriority:integer
SpotPrice:float
DisableSimultaneousMultithreading:boolean
SchedulableMemory:integer
HealthChecks: Gpu: Enabled:boolean
Efa: Enabled:boolean
GdrSupport:boolean
CapacityReservationTarget: CapacityReservationId:string
CapacityReservationResourceGroupArn:string
Networking: PlacementGroup: Enabled:boolean
Name:string
CustomSlurmSettings:dict
Tags: - Key:string
Value:string
ComputeResources
-Eigenschaften
Name
(Erforderlich,String
)-
Der Name des Slurm Datenverarbeitungsumgebung in der Warteschlange. Der Name kann bis zu 25 Zeichen lang sein.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
InstanceType
(Erforderlich,String
)-
Der Instanztyp, der in diesem Fall verwendet wird Slurm Rechenressource. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden. Instanzen können entweder die
x86_64
arm64
Oder-Architektur verwenden.Die Clusterkonfiguration muss entweder Instanzen InstanceTypeoder definieren. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.
Wenn Sie definieren
InstanceType
, können Sie nicht mehrere Subnetze definieren. Wenn Sie nur einen Instanztyp konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instanztyp in undInstances
nicht in.InstanceType
Weitere Informationen finden Sie unter Networking/SubnetIds.Wenn Sie eine definieren p4d or hpc6id Instance-Typ oder ein anderer Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet werden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.
Instances
(Erforderlich)-
Gibt die Liste der Instanztypen für eine Rechenressource an. Informationen zur Angabe der Zuweisungsstrategie für die Liste der Instanztypen finden Sie unter AllocationStrategy.
Die Clusterkonfiguration muss entweder InstanceTypeoder definieren Instances. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.
Weitere Informationen finden Sie unter Zuweisung mehrerer Instanztypen mit Slurm.
Instances: - InstanceType:
string
Anmerkung
Ab AWS ParallelCluster Version 3.7.0
EnableMemoryBasedScheduling
kann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x
,EnableMemoryBasedScheduling
kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.InstanceType
(Erforderlich,String
)-
Der Instanztyp, der dabei verwendet werden soll Slurm Rechenressource. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden, entweder
x86_64
oderarm64
.Die unter aufgeführten Instanztypen Instancesmüssen Folgendes aufweisen:
-
Dieselbe Anzahl von Kernen odervCPUs, falls DisableSimultaneousMultithreadingauf eingestellt
true
, dieselbe Anzahl von Kernen. -
Dieselbe Anzahl von Beschleunigern derselben Hersteller.
Die Instanztypen, die unter aufgeführt sind, Instanceskönnen Folgendes haben:
-
Unterschiedliche Speichermenge.
In diesem Fall muss der Mindestspeicher als Verbrauchsmaterial festgelegt werden Slurm Ressource.
Anmerkung
EnableMemoryBasedScheduling
Kann ab AWS ParallelCluster Version 3.7.0 aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x
,EnableMemoryBasedScheduling
kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren. -
Verschiedene Netzwerkkarten.
In diesem Fall wird die Anzahl der für die Rechenressource konfigurierten Netzwerkschnittstellen durch den Instanztyp mit der geringsten Anzahl von Netzwerkkarten definiert.
-
Unterschiedliche Netzwerkbandbreite.
-
Unterschiedliche Größe des Instance-Speichers.
Wenn Sie eine definieren p4d or hpc6id Instance-Typ oder ein anderer Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instanzen zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2Amazon-Benutzerhandbuch für Linux-Instances.
-
Anmerkung
Instances
wird ab AWS ParallelCluster Version 3.3.0 unterstützt. MinCount
(Fakultativ,Integer
)-
Die Mindestanzahl von Instanzen, die Slurm Die Rechenressource verwendet. Der Standardwert ist 0.
Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
MaxCount
(Optional,Integer
)-
Die maximale Anzahl von Instanzen, die Slurm Die Rechenressource verwendet. Der Standardwert ist 10.
Bei Verwendung
CapacityType = CAPACITY_BLOCK
MaxCount
muss der Wert gleich oder größer als 0 sein, da alle Instanzen, die Teil der Capacity Block-Reservierung sind, als statische Knoten verwaltet werden.MinCount
Bei der Clustererstellung wartet der Hauptknoten, bis alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Bei der Verwendung werden die Knoten
CapacityType = CAPACITY_BLOCK
, die Teil der Rechenressourcen sind, die Kapazitätsblöcken zugeordnet sind, bei dieser Prüfung jedoch nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Kapazitätsblöcke aktiv sind.Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
DynamicNodePriority
(Optional,Integer
)-
Die Priorität dynamischer Knoten in einer Queue-Rechenressource. Die Priorität entspricht Slurm
Weight
Knotenkonfigurationsparameter für die dynamischen Knoten der Rechenressource. Der Standardwert ist 1000
.Slurm priorisiert zuerst Knoten mit den niedrigsten
Weight
Werten.Warnung
Die Verwendung vieler verschiedener
Weight
Werte in einem Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.In AWS ParallelCluster Versionen vor Version 3.7.0 wurde sowohl statischen als auch dynamischen Knoten dieselbe Standardgewichtung von
1
zugewiesen. In diesem Fall Slurm könnte aufgrund des Benennungsschemas für statische und dynamische Knoten inaktive dynamische Knoten gegenüber inaktiven statischen Knoten priorisieren. Wenn alles andere gleich ist, Slurm ordnet Knoten alphabetisch nach Namen.Anmerkung
DynamicNodePriority
wurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
StaticNodePriority
(Fakultativ,Integer
)-
Die Priorität statischer Knoten in einer Queue-Rechenressource. Die Priorität entspricht Slurm
Weight
Knotenkonfigurationsparameter für die statischen Knoten der Rechenressource. Der Standardwert ist 1
.Slurm priorisiert zuerst Knoten mit den niedrigsten
Weight
Werten.Warnung
Die Verwendung vieler verschiedener
Weight
Werte in einem Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.Anmerkung
StaticNodePriority
wurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SpotPrice
(Fakultativ,Float
)-
Der Höchstpreis, der für eine Amazon EC2 Spot-Instance bezahlt wurde, bevor Instances gestartet wurden. Der Standardwert ist der On-Demand-Preis.
DisableSimultaneousMultithreading
(Optional,Boolean
)-
Wenn
true
, Multithreading auf den Knoten in Slurm Warteschlange ist deaktiviert. Der Standardwert istfalse
.Nicht alle Instance-Typen können Multithreading deaktivieren. Eine Liste der Instance-Typen, die die Deaktivierung von Multithreading unterstützen, finden Sie im EC2Amazon-Benutzerhandbuch unter CPUKerne und Threads für jeden CPU Kern pro Instance-Typ.
SchedulableMemory
(Optional,)Integer
-
Die Speichermenge in MiB, die konfiguriert ist in Slurm Parameter
RealMemory
für die Rechenknoten einer Rechenressource. Dieser Wert ist die Obergrenze für den Knotenspeicher, der für Jobs verfügbar ist, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Der Standardwert ist 95 Prozent des Speichers, der unter EC2Amazon-Instanztypenaufgeführt und von Amazon zurückgegeben wird EC2 API DescribeInstanceTypes. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen. Unterstützte Werte:
1-EC2Memory
EC2Memory
ist der Speicher (in MiB), der unter EC2Amazon-Instanztypenaufgeführt und von Amazon EC2 API DescribeInstanceTypeszurückgegeben wird. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen. Diese Option ist am relevantesten, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Weitere Informationen finden Sie unter Slurmspeicherbasierte Terminplanung.
Anmerkung
SchedulableMemory
wird ab AWS ParallelCluster Version 3.2.0 unterstützt.Ab Version 3.2.0 konfiguriert standardmäßig für AWS ParallelCluster
RealMemory
Slurm Rechenknoten für 95 Prozent des Speichers, der von Amazon zurückgegeben wird EC2 APIDescribeInstanceTypes
. Diese Konfiguration ist unabhängig vom Wert vonEnableMemoryBasedScheduling
. HealthChecks
(Fakultativ)-
Geben Sie Integritätsprüfungen für eine Rechenressource an.
Gpu
(Fakultativ)-
Geben Sie GPU Integritätsprüfungen für eine Rechenressource an.
Enabled
(Fakultativ,Boolean
)-
Gibt an AWS ParallelCluster , ob bei der Berechnung einer Ressource in einer Warteschlange GPU Integritätsprüfungen durchgeführt werden. Der Standardwert ist
false
.Anmerkung
AWS ParallelCluster unterstützt
HealthChecks
/nichtGpu
in Knoten, diealinux2
ARM Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIAData Center GPU Manager (DCGM)nicht.
Gpu
Verhalten bei der Gesundheitsprüfung-
Wenn
Gpu
/auf gesetztEnabled
isttrue
, werden AWS ParallelCluster GPU Integritätsprüfungen für eine Rechenressource durchgeführt. -
Bei der
Gpu
Integritätsprüfung werden Integritätsprüfungen für eine Rechenressource durchgeführt, um zu verhindern, dass Jobs auf Knoten weitergeleitet werden, deren Leistung beeinträchtigt GPU ist. -
Wenn ein Rechenknoten eine
Gpu
Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN
. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt. -
Die Dauer der
Gpu
Integritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen und der Anzahl derGpu
Integritätsprüfungsziele ab (entspricht der Anzahl der GPU Jobziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten. -
Wenn die
Gpu
Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine hatGPU, oder, wenn eine Instanz eine hat, es aber keine istGPU, wird die NVIDIA GPU Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA GPUs werden unterstützt. -
Die
Gpu
Integritätsprüfung verwendet dasdcgmi
Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:Wenn die
Gpu
Zustandsprüfung in einem Knoten beginnt:-
Es erkennt, ob die
nvidia-fabricmanager
Dienstenvidia-dcgm
und ausgeführt werden. -
Wenn diese Dienste nicht ausgeführt werden, werden sie durch die
Gpu
Integritätsprüfung gestartet. -
Es erkennt, ob der Persistenzmodus aktiviert ist.
-
Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die
Gpu
Integritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die
Gpu
Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt. -
-
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen istGPUs, wird die
Gpu
Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird dieGpu
Integritätsprüfung für alle GPUs Knoten ausgeführt. -
Wenn ein Rechenknoten zwei oder mehr
Gpu
Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen. -
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der
/var/log/parallelcluster/slurm_health_check.log
Datei verfügbar. Diese Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:-
Einzelheiten zu der Aktion, die im Rahmen der
Gpu
Integritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus. -
Der GPU Bezeichner, die Seriennummer und die. UUID
-
Die Ausgabe des Integritätschecks.
-
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
HealthChecks
wird ab AWS ParallelCluster Version 3.6.0 unterstützt. Efa
(Fakultativ)-
Spezifiziert die Elastic Fabric Adapter-Einstellungen (EFA) für die Knoten in der Slurm Warteschlange.
Efa: Enabled:
boolean
GdrSupport:boolean
Enabled
(Optional,Boolean
)-
Gibt an, dass der Elastic Fabric Adapter (EFA) aktiviert ist. Eine Liste der unterstützten EC2 Amazon-Instances finden Sie unter Unterstützte Instance-Typen im EC2Amazon-Benutzerhandbuch für Linux-Instances. EFA Weitere Informationen finden Sie unter Elastic Fabric Adapter. Wir empfehlen die Verwendung eines Clusters SlurmQueues/Networking/, PlacementGroupum die Latenzen zwischen den Instances zu minimieren.
Der Standardwert ist
false
.Anmerkung
Der Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt. Weitere Informationen finden Sie unter SubnetIds.
Warnung
Wenn Sie eine benutzerdefinierte Sicherheitsgruppe in definieren, stellen Sie sicher SecurityGroups, dass Ihre EFA -aktivierten Instances Mitglieder einer Sicherheitsgruppe sind, die allen eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.
GdrSupport
(Optional,)Boolean
-
(Optional) Ab AWS ParallelCluster Version 3.0.2 hat diese Einstellung keine Auswirkung. Die Unterstützung von Elastic Fabric Adapter GPUDirect RDMA (EFA) für (direkten Remote-Speicherzugriff) ist immer aktiviert, wenn sie vom Instance-Typ für den Slurm Rechenressource und Betriebssystem.
Anmerkung
AWS ParallelCluster Version 3.0.0 bis 3.0.1: Support für GPUDirect RDMA ist aktiviert für Slurm Ressourcen berechnen. Support für GPUDirect RDMA wird von bestimmten Instance-Typen (
p4d.24xlarge
) auf bestimmten Betriebssystemen unterstützt (Osistalinux2
ubuntu1804
, oderubuntu2004
). Der Standardwert ist "false".
CapacityReservationTarget
-
CapacityReservationTarget: CapacityReservationId:
string
CapacityReservationResourceGroupArn:string
Gibt die On-Demand-Kapazitätsreservierung an, die für die Rechenressource verwendet werden soll.
CapacityReservationId
(Fakultativ,String
)-
Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf einen ODCRoder einen Kapazitätsblock für ML beziehen.
Wenn dieser Parameter auf Rechenressourcenebene angegeben wird, InstanceType ist er optional und wird automatisch aus der Reservierung abgerufen.
CapacityReservationResourceGroupArn
(Optional,String
)-
Gibt den Amazon-Ressourcennamen (ARN) der Ressourcengruppe an, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressource dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Gruppe. Die Ressourcengruppe muss mindestens eine ODCR für jeden Instanztyp haben, der für die Rechenressource aufgeführt ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
-
Wenn die Option in SlurmQueues/Networkingoder SlurmQueues//aktiviert
PlacementGroup
ist Networking, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt, die auf den Instanztyp abzielt, undPlacementGroup
für eine Rechenressource, falls diese existiert. ComputeResourcesSie
PlacementGroup
muss auf einen der in definierten Instanztypen abzielen ComputeResources. -
Wenn sie in SlurmQueues/Networkingoder SlurmQueuesComputeResources/
PlacementGroup
nicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern diese existiert.
-
Anmerkung
CapacityReservationTarget
wird mit AWS ParallelCluster Version 3.3.0 hinzugefügt. Networking
-
Networking: PlacementGroup: Enabled:
boolean
Name:string
PlacementGroup
(Fakultativ)-
Gibt die Platzierungsgruppeneinstellungen für die Rechenressource an.
Enabled
(Optional,Boolean
)-
Gibt an, ob eine Platzierungsgruppe für die Rechenressource verwendet wird.
-
Wenn dieser Wert auf
true
gesetzt ist und keinName
definierter Wert angegeben ist, wird dieser Rechenressource unabhängig von der PlacementGroupEinstellung SlurmQueues/Networking/eine eigene verwaltete Platzierungsgruppe zugewiesen. -
Wenn dieser Wert auf
true
gesetzt ist und einName
Wert definiert ist, wird dieser Rechenressource unabhängig von denSlurmQueues
/Networking
/PlacementGroup
-Einstellungen die benannte Platzierungsgruppe zugewiesen.
-
Name
(Optional,String
)-
Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die für die Rechenressource verwendet wird.
Anmerkung
-
Wenn
Enabled
sowohlPlacementGroup
/als auchName
nicht gesetzt sind, werden für ihre jeweiligen Werte standardmäßig die PlacementGroupEinstellungen SlurmQueues/Networking/verwendet. -
ComputeResources
/Networking
/PlacementGroup
wird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.
CustomSlurmSettings
(Fakultativ,Dict
)-
(Optional) Definiert den Benutzerdefiniert Slurm Konfigurationseinstellungen für den Knoten (Rechenressource).
Gibt ein benutzerdefiniertes Wörterbuch an Slurm Schlüssel-Wert-Paare für Konfigurationsparameter, die gelten für Slurm Knoten (Rechenressourcen).
Jedes einzelne Schlüssel-Wert-Paar, z. B.
Param1: Value1
, wird separat am Ende des Slurm Knotenkonfigurationszeile im Format.Param1=Value1
Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen.
CustomSlurmSettings
Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.
Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf
im Slurm -Dokumentation. Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettings
wird ab Version 3.6.0 unterstützt. AWS ParallelCluster Tags
(Optional, [Zeichenfolge])-
Eine Liste von Tag-Schlüssel-Wert-Paaren.
ComputeResource
Tags überschreiben doppelte Tags, die in Tags Abschnitt oder SlurmQueues/angegeben sind.Tags
Key
(Optional,String
)-
Der Tag-Schlüssel.
Value
(Fakultativ,String
)-
Der Tag-Wert.
ComputeSettings
(Erforderlich) Definiert die ComputeSettings
Konfiguration für Slurm Warteschlange.
ComputeSettings
-Eigenschaften
Spezifiziert die Eigenschaften ComputeSettings
der Knoten im Slurm Warteschlange.
ComputeSettings: LocalStorage: RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
LocalStorage
(Fakultativ)-
Spezifiziert die Eigenschaften
LocalStorage
der Knoten in Slurm Warteschlange.LocalStorage: RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
EphemeralVolume: MountDir:string
RootVolume
(Fakultativ)-
Gibt die Details des Root-Volumes der Knoten in der Slurm Warteschlange.
RootVolume: Size:
integer
Encrypted:boolean
VolumeType:string
Iops:integer
Throughput:integer
Size
(Fakultativ,Integer
)-
Gibt die Größe des Root-Volumes in Gibibyte (GiB) für die Knoten in der Slurm Warteschlange. Die Standardgröße stammt aus dem. AMI Für die Verwendung einer anderen Größe sind die AMI Stützen erforderlich
growroot
. Encrypted
(Fakultativ,Boolean
)-
Wenn
true
, das Root-Volumen der Knoten in Slurm Warteschlangen sind verschlüsselt. Der Standardwert istfalse
. VolumeType
(Fakultativ,String
)-
Gibt den EBSAmazon-Volume-Typ der Knoten in der Slurm Warteschlange. Unterstützte Werte sind
gp2
gp3
io1
,io2
,sc1
,st1
, undstandard
. Der Standardwert istgp3
.Weitere Informationen finden Sie unter EBSAmazon-Volumetypen im EC2Amazon-Benutzerhandbuch.
Iops
(Fakultativ,Boolean
)-
Definiert die Anzahl der Volumes
gp3
vom Typ IOPS forio1
io2
, und.Der Standardwert, die unterstützten Werte und das
volume_size
Verhältnisvolume_iops
zu den Werten variieren je nachVolumeType
undSize
.VolumeType
=io1
-
Standard
Iops
= 100Unterstützte Werte
Iops
= 100—64000 †Maximales
volume_iops
volume_size
Verhältnis = 50 IOPS pro GiB. 5000 IOPS erfordert einenvolume_size
Wert von mindestens 100 GiB. VolumeType
=io2
-
Standard
Iops
= 100Unterstützte Werte
Iops
= 100—64000 (256000 fürio2
Block Express-Volumes) †Maximales
Iops
Size
Verhältnis = 500 IOPS pro GiB. 5000 IOPS erfordert einenSize
Wert von mindestens 10 GiB. VolumeType
=gp3
-
Standard
Iops
= 3000Unterstützte Werte
Iops
= 3000—16000 †Maximales
Iops
Size
Verhältnis = 500 IOPS pro GiB für Volumen mit IOPS mehr als 3000.
† IOPS Das Maximum wird nur für Instances garantiert, die auf dem Nitro-System basieren und für die auch mehr als 32.000 bereitgestellt werden. IOPS Andere Instanzen können bis zu 32.000 haben. IOPS Frühere
io1
Volumes erreichen möglicherweise nicht die volle Leistung, es sei denn, Sie ändern das Volume.io2
Block Express-Volumes unterstützenvolume_iops
Werte bis zu 256000 fürR5b
Instance-Typen. Weitere Informationen finden Sie unterio2
Block Express-Volumen im EC2Amazon-Benutzerhandbuch. Throughput
(Fakultativ,Integer
)-
Definiert den Durchsatz für
gp3
Volumetypen in MiB/s. Diese Einstellung ist nur gültig, wenn sieVolumeType
ist.gp3
Der Standardwert ist125
. Unterstützte Werte: 125—1000 MiB/sDas Verhältnis von
Throughput
zuIops
darf nicht mehr als 0,25 betragen. Der maximale Durchsatz von 1000 MiB/s setzt voraus, dass dieIops
Einstellung mindestens 4000 beträgt.
EphemeralVolume
(Fakultativ,)Boolean
-
Gibt die Einstellungen für das kurzlebige Volumen an. Das ephemere Volume wird erstellt, indem alle Instance-Speicher-Volumes zu einem einzigen logischen Volume zusammengefasst werden, das mit dem Dateisystem formatiert ist.
ext4
Der Standardwert ist/scratch
. Wenn der Instance-Typ keine Instance-Speicher-Volumes hat, wird kein ephemeres Volume erstellt. Weitere Informationen finden Sie unter Instance-Speicher-Volumes im EC2Amazon-Benutzerhandbuch.EphemeralVolume: MountDir:
string
MountDir
(Fakultativ,String
)-
Das Mount-Verzeichnis für das ephemere Volume für jeden Knoten im Slurm Warteschlange.
CustomActions
(Optional) Gibt benutzerdefinierte Skripts an, die auf den Knoten ausgeführt werden sollen in Slurm Warteschlange.
CustomActions: OnNodeStart: Sequence: - Script:
string
Args: -string
Script:string
Args: -string
OnNodeConfigured: Sequence: - Script:string
Args: -string
Script:string
Args: -string
CustomActions
Eigenschaften
OnNodeStart
(Fakultativ,String
)-
Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange, bevor eine Bootstrap-Aktion zur Knotenbereitstellung gestartet wird. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequence
dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.Sequence
(Fakultativ)-
Liste der auszuführenden Skripts.
Script
(Erforderlich,String
)-
Die zu verwendende Datei. Der Dateipfad kann mit
https://
oder beginnens3://
. Args
(Fakultativ,[String]
)-
Die Liste der Argumente, die an das Skript übergeben werden sollen.
Script
(Erforderlich,String
)-
Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit
https://
oder beginnens3://
. Args
(Fakultativ,[String]
)-
Die Liste der Argumente, die an das einzelne Skript übergeben werden sollen.
OnNodeConfigured
(Fakultativ,String
)-
Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange, nachdem alle Bootstrap-Aktionen des Knotens abgeschlossen sind. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequence
dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.Sequence
(Fakultativ)-
Liste der auszuführenden Skripts.
Script
(Erforderlich,String
)-
Die zu verwendende Datei. Der Dateipfad kann mit
https://
oder beginnens3://
. Args
(Fakultativ,[String]
)-
Die Liste der Argumente, die an das Skript übergeben werden sollen.
Script
(Erforderlich,String
)-
Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit
https://
oder beginnens3://
. Args
(Fakultativ,[String]
)-
Eine Liste von Argumenten, die an das einzelne Skript übergeben werden sollen.
Anmerkung
Sequence
wird ab AWS ParallelCluster Version 3.6.0 hinzugefügt. Wenn Sie angebenSequence
, können Sie mehrere Skripts für eine benutzerdefinierte Aktion auflisten. AWS ParallelCluster unterstützt weiterhin die Konfiguration einer benutzerdefinierten Aktion mit einem einzigen Skript, ohne dies einzuschließenSequence
.AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequence
dieselbe benutzerdefinierte Aktion einzubeziehen.
Iam
(Optional) Definiert optionale IAM Einstellungen für Slurm Warteschlange.
Iam: S3Access: - BucketName:
string
EnableWriteAccess:boolean
KeyName:string
AdditionalIamPolicies: - Policy:string
InstanceProfile:string
InstanceRole:string
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Iam
Eigenschaften
InstanceProfile
(Fakultativ,String
)-
Gibt ein Instanzprofil an, das die Standard-Instanzrolle oder das Instanzprofil für die überschreibt Slurm Warteschlange. Sie können nicht sowohl als
InstanceProfile
auch angebenInstanceRole
. Das Format istarn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}
.Wenn dies angegeben ist, können die
AdditionalIamPolicies
EinstellungenS3Access
und nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPolicies
Einstellungen fürS3Access
und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern. InstanceRole
(Optional,String
)-
Gibt eine Instanzrolle an, um die Standard-Instanzrolle oder das Instanzprofil für die zu überschreiben Slurm Warteschlange. Sie können nicht sowohl als
InstanceProfile
auch angebenInstanceRole
. Das Format istarn:${Partition}:iam::${Account}:role/${RoleName}
.Wenn dies angegeben ist, können die
AdditionalIamPolicies
EinstellungenS3Access
und nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPolicies
Einstellungen fürS3Access
und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
S3Access
(Fakultativ)-
Spezifiziert einen Bucket für Slurm Warteschlange. Dies wird verwendet, um Richtlinien zu generieren, die den angegebenen Zugriff auf den Bucket in der Slurm Warteschlange.
Wenn dies angegeben ist, können die
InstanceRole
EinstellungenInstanceProfile
und nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPolicies
Einstellungen fürS3Access
und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.S3Access: - BucketName:
string
EnableWriteAccess:boolean
KeyName:string
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
BucketName
(Erforderlich,String
)-
Der Name des -Buckets.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
KeyName
(Fakultativ,String
)-
Der Schlüssel für den Eimer. Der Standardwert ist
*
.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
EnableWriteAccess
(Fakultativ,Boolean
)-
Gibt an, ob der Schreibzugriff für den Bucket aktiviert ist.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalIamPolicies
(Fakultativ)-
Gibt eine Liste von Amazon-Ressourcennamen (ARNs) mit IAM Richtlinien für Amazon anEC2. Diese Liste ist an die Root-Rolle angehängt, die für Slurm Warteschlange zusätzlich zu den Berechtigungen, die für erforderlich sind AWS ParallelCluster.
Ein IAM Richtlinienname und sein Name ARN sind unterschiedlich. Namen können nicht verwendet werden.
Wenn dies angegeben ist, können die
InstanceRole
EinstellungenInstanceProfile
und nicht angegeben werden.Wir empfehlen die Verwendung,
AdditionalIamPolicies
da sie zu den erforderlichen Berechtigungen hinzugefügtAdditionalIamPolicies
werden und alle erforderlichen Berechtigungen enthaltenInstanceRole
müssen. AWS ParallelCluster Die erforderlichen Berechtigungen ändern sich häufig von Version zu Version, da Funktionen hinzugefügt werden.Es gibt keinen Standardwert.
AdditionalIamPolicies: - Policy:
string
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Policy
(Erforderlich,[String]
)-
Liste der IAM Richtlinien.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SlurmSettings
(Optional) Definiert die Einstellungen für Slurm die für den gesamten Cluster gelten.
SlurmSettings: ScaledownIdletime:
integer
QueueUpdateStrategy:string
EnableMemoryBasedScheduling:boolean
CustomSlurmSettings:[dict]
CustomSlurmSettingsIncludeFile:string
Database: Uri:string
UserName:string
PasswordSecretArn:string
ExternalSlurmdbd: Host:string
Port:integer
Dns: DisableManagedDns:boolean
HostedZoneId:string
UseEc2Hostnames:boolean
SlurmSettings
Eigenschaften
ScaledownIdletime
(Fakultativ,Integer
)-
Definiert den Zeitraum (in Minuten), in dem es keinen Job gibt und Slurm Der Knoten wird beendet.
Der Standardwert ist
10
. MungeKeySecretArn
(Fakultativ,String
)-
Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Manager-Geheimnisses im Klartext, das den Base64-kodierten Munge-Schlüssel enthält, der verwendet werden soll in Slurm Cluster. Dieser Munge-Schlüssel wird verwendet, um Anrufe zu authentifizieren zwischen RPC Slurm Client-Befehle und Slurm Daemons, die als Remoteserver agieren. Wenn MungeKeySecretArn nicht angegeben, AWS ParallelCluster wird ein zufälliger Munge-Schlüssel für den Cluster generiert.
Anmerkung
MungeKeySecretArn
wird ab AWS ParallelCluster Version 3.8.0 unterstützt.Warnung
Wenn der MungeKeySecretArn neu zu einem vorhandenen Cluster hinzugefügt ParallelCluster wird, wird der vorherige munge Key im Falle eines Rollbacks oder beim späteren Entfernen des nicht wiederhergestellt. MungeKeySecretArn Stattdessen wird ein neuer zufälliger Munge-Schlüssel generiert.
Ob der AWS ParallelCluster Benutzer die Erlaubnis hat, DescribeSecretauf diese bestimmte geheime Ressource zuzugreifen, MungeKeySecretArn wird überprüft. MungeKeySecretArn ist gültig, wenn:
-
Das angegebene Geheimnis existiert und
-
Das Geheimnis ist Klartext und enthält eine gültige Base64-kodierte Zeichenfolge, und
-
Der dekodierte binäre Munge-Schlüssel hat eine Größe zwischen 256 und 8192 Bit.
Wenn die IAM Pcluster-Benutzerrichtlinie dies nicht beinhaltet DescribeSecret, nicht validiert MungeKeySecretArn wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.
Wenn Sie ein Update MungeKeySecretArn durchführen, müssen die Rechenflotte und alle Anmeldeknoten gestoppt werden.
Wenn der geheime Wert im Secret geändert ARN wird, während der gleiche ARN bleibt, wird der Cluster nicht automatisch mit dem neuen Munge-Schlüssel aktualisiert. Um den neuen Munge-Schlüssel ARN des Secrets zu verwenden, müssen Sie die Compute-Flotte und die Anmeldeknoten stoppen und dann den folgenden Befehl vom Hauptknoten aus ausführen.
sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh
Nachdem Sie den Befehl ausgeführt haben, können Sie sowohl die Rechenflotte als auch die Anmeldeknoten wieder aufnehmen: Die neu bereitgestellten Rechen- und Anmeldeknoten werden automatisch mit dem neuen Munge-Schlüssel gestartet.
Um einen Base64-codierten benutzerdefinierten Munge-Schlüssel zu generieren, können Sie das im Lieferumfang der Munge-Software enthaltene Mungekey-Hilfsprogramm
verwenden und es dann mit dem Base64-Hilfsprogramm codieren, das allgemein in Ihrem Betriebssystem verfügbar ist. Alternativ können Sie entweder bash verwenden (bitte setzen Sie den bs-Parameter zwischen 32 und 1024) dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0
oder Python wie folgt:
import random import os import base64 # key length in bytes key_length=128 base64.b64encode(os.urandom(key_length)).decode("utf-8")
Richtlinie aktualisieren: NEW UPDATE POLICY WITH COMPUTE FLEET AND LOGIN NODES STOPPED (fälschlicherweise nicht in 3.7.0 hinzugefügt).
-
QueueUpdateStrategy
(Fakultativ,)String
-
Gibt die Ersatzstrategie für die SlurmQueues Abschnittsparameter an, für die die folgende Aktualisierungsrichtlinie gilt:
Der
QueueUpdateStrategy
Wert wird nur verwendet, wenn ein Cluster-Aktualisierungsprozess gestartet wird.Zulässige Werte:
COMPUTE_FLEET_STOP
|DRAIN
|TERMINATE
Standardwert:
COMPUTE_FLEET_STOP
DRAIN
-
Knoten in Warteschlangen mit geänderten Parameterwerten sind auf
DRAINING
eingestellt. Knoten in diesem Status akzeptieren keine neuen Jobs und laufende Jobs werden bis zum Abschluss fortgesetzt.Wenn ein Knoten zu
idle
(DRAINED
) wird, wird ein Knoten ersetzt, wenn es sich um einen statischen Knoten handelt, und der Knoten wird beendet, wenn der Knoten dynamisch ist. Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.Die Zeit, die diese Strategie benötigt, um alle Warteschlangenknoten durch geänderte Parameterwerte zu ersetzen, hängt von der laufenden Arbeitslast ab.
COMPUTE_FLEET_STOP
-
Der Standardwert des
QueueUpdateStrategy
Parameters. Bei dieser Einstellung müssen Sie zum Aktualisieren der Parameter SlurmQueues im Abschnitt die Rechenflotte beenden, bevor Sie ein Cluster-Update durchführen:$
pcluster update-compute-fleet --status STOP_REQUESTED
TERMINATE
-
In Warteschlangen mit geänderten Parameterwerten werden laufende Jobs beendet und die Knoten werden sofort heruntergefahren.
Statische Knoten werden ersetzt und dynamische Knoten werden beendet.
Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.
Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.
Anmerkung
QueueUpdateStrategy
wird ab AWS ParallelCluster Version 3.2.0 unterstützt. EnableMemoryBasedScheduling
(Fakultativ,Boolean
)-
Wenn
true
die speicherbasierte Planung aktiviert ist in Slurm. Weitere Informationen finden Sie unter SlurmQueues/ComputeResources/SchedulableMemory.Der Standardwert ist
false
.Warnung
Die Aktivierung der speicherbasierten Planung wirkt sich auf die Art und Weise aus, wie Slurm Der Scheduler verarbeitet Jobs und die Knotenzuweisung.
Weitere Informationen finden Sie unter Slurmspeicherbasierte Terminplanung.
Anmerkung
EnableMemoryBasedScheduling
wird ab AWS ParallelCluster Version 3.2.0 unterstützt.Anmerkung
Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x
,EnableMemoryBasedScheduling
kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren. CustomSlurmSettings
(Optional,[Dict]
)-
Definiert den Benutzerdefiniert Slurm Einstellungen, die für den gesamten Cluster gelten.
Gibt eine Liste von an Slurm Konfigurationswörterbücher mit Schlüssel-Wert-Paaren, die an das Ende der generierten Datei angehängt werden.
slurm.conf
AWS ParallelClusterJedes Wörterbuch in der Liste erscheint als separate Zeile, die dem Slurm Konfigurationsdatei. Sie können entweder einfache oder komplexe Parameter angeben.
Einfache Parameter bestehen aus einem einzigen key pair, wie in den folgenden Beispielen gezeigt:
- Param1: 100 - Param2: "SubParam1,SubParam2=SubValue2"
Beispiel gerendert in Slurm Konfiguration:
Param1=100 Param2=SubParam1,SubParam2=SubValue2
Komplex Slurm Konfigurationsparameter bestehen aus mehreren durch Leerzeichen getrennten Schlüssel-Wert-Paaren, wie in den nächsten Beispielen gezeigt:
- NodeName: test-nodes[1-10] CPUs: 4 RealMemory: 4196 ... # other node settings - NodeSet: test-nodeset Nodes: test-nodes[1-10] ... # other nodeset settings - PartitionName: test-partition Nodes: test-nodeset ... # other partition settings
Beispiel, gerendert in Slurm Konfiguration:
NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings PartitionName=test-partition Nodes=test-nodeset ... # other partition settings
Anmerkung
Benutzerdefiniert Slurm Knoten dürfen die
-dy-
Muster-st-
oder nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.Wenn Sie Benutzerdefiniert angeben Slurm Konfigurationsparameter in
CustomSlurmSettings
, Sie dürfen keine benutzerdefinierten Parameter angeben Slurm Konfigurationsparameter fürCustomSlurmSettingsIncludeFile
.Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen.
CustomSlurmSettings
Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.
Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf
im Slurm -Dokumentation. Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettings
wird ab Version 3.6.0 unterstützt. AWS ParallelCluster CustomSlurmSettingsIncludeFile
(Fakultativ,String
)-
Definiert den Benutzerdefiniert Slurm Einstellungen, die für den gesamten Cluster gelten.
Gibt das benutzerdefinierte an Slurm Datei bestehend aus benutzerdefinierten Slurm Konfigurationsparameter, die am Ende der AWS ParallelCluster generierten
slurm.conf
Datei angehängt werden.Sie müssen den Pfad zur Datei angeben. Der Pfad kann mit
https://
oder beginnens3://
.Wenn Sie Benutzerdefiniert angeben Slurm Konfigurationsparameter für
CustomSlurmSettingsIncludeFile
, Sie dürfen keine benutzerdefinierten Parameter angeben Slurm Konfigurationsparameter fürCustomSlurmSettings
.Anmerkung
Benutzerdefiniert Slurm Knoten dürfen die
-dy-
Muster-st-
oder nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.Sie können nur angeben Slurm Konfigurationsparameter, die nicht auf der Negativliste stehen.
CustomSlurmSettingsIncludeFile
Informationen zu Deny-List-Optionen Slurm Konfigurationsparameter finden Sie unter. Auf der Denim-ListeSlurmKonfigurationsparameter fürCustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter in einer Sperrliste enthalten ist. AWS ParallelCluster validiert Ihre benutzerdefinierte Einstellung nicht Slurm Syntax oder Semantik von Konfigurationsparametern. Sie sind dafür verantwortlich, Ihren Benutzerdefiniert zu validieren Slurm Konfigurationsparameter. Ungültiger Benutzerdefiniert Slurm Konfigurationsparameter können folgende Ursachen haben Slurm Daemon-Fehler, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Informationen zur Angabe benutzerdefinierter Slurm Konfigurationsparameter mit AWS ParallelCluster finden Sie unterSlurmAnpassung der Konfiguration.
Weitere Informationen zur Slurm Konfigurationsparameter finden Sie unter slurm.conf
im Slurm -Dokumentation. Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettings
wird ab Version 3.6.0 unterstützt. AWS ParallelCluster
Database
(Optional) Definiert die zu aktivierenden Einstellungen Slurm Buchhaltung auf dem Cluster. Weitere Informationen finden Sie unter Slurm Abrechnung mit AWS ParallelCluster.
Database: Uri:
string
UserName:string
PasswordSecretArn:string
Database
-Eigenschaften
Uri
(Erforderlich,String
)-
Die Adresse des Datenbankservers, der als Backend verwendet wird für Slurm Buchhaltung. Dies URI muss als formatiert sein
host:port
und darf kein Schema enthalten, wiemysql://
z. Der Host kann entweder eine IP-Adresse oder ein DNS Name sein, der vom Hauptknoten aufgelöst werden kann. Wenn kein Port bereitgestellt wird, AWS ParallelCluster verwendet MySQL Standardport 3306.AWS ParallelCluster bootet das Slurm die Accounting-Datenbank für den Cluster und muss auf die Datenbank zugreifen.
Die Datenbank muss erreichbar sein, bevor Folgendes passiert:
-
Ein Cluster wird erstellt.
-
Slurm Die Kontoführung wird mit einem Cluster-Update aktiviert.
-
UserName
(Erforderlich,String
)-
Die Identität, die Slurm verwendet, um eine Verbindung mit der Datenbank herzustellen, Kontoführungsprotokolle zu schreiben und Abfragen durchzuführen. Der Benutzer muss sowohl Lese- als auch Schreibberechtigungen für die Datenbank haben.
PasswordSecretArn
(Erforderlich,String
)-
Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Geheimnisses, das das
UserName
Klartext-Passwort enthält. Dieses Passwort wird zusammen mitUserName
und verwendet Slurm Accounting zur Authentifizierung auf dem Datenbankserver.Anmerkung
Achten Sie beim Erstellen eines Geheimnisses mit der AWS Secrets Manager Konsole darauf, dass Sie „Anderer Geheimtyp“ und Klartext auswählen und nur den Passworttext in das Geheimnis aufnehmen.
Weitere Informationen zur Erstellung eines Geheimnisses finden Sie AWS Secrets Manager unter Create an AWS Secrets Manager Secret
Ob der Benutzer dazu berechtigt
PasswordSecretArn
ist DescribeSecret, wird überprüft.PasswordSecretArn
ist gültig, wenn das angegebene Geheimnis existiert. Wenn die IAM Benutzerrichtlinie dies nicht beinhaltetDescribeSecret
,PasswordSecretArn
nicht validiert wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.Wenn Sie ein Update
PasswordSecretArn
durchführen, muss die Rechenflotte gestoppt werden. Wenn sich der geheime Wert ändert und der geheime Schlüssel sich ARN nicht ändert, wird der Cluster nicht automatisch mit dem neuen Datenbankkennwort aktualisiert. Um den Cluster für den neuen geheimen Wert zu aktualisieren, müssen Sie den folgenden Befehl vom Hauptknoten aus ausführen, nachdem die Compute-Flotte gestoppt wurde.$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.shWarnung
Wir empfehlen, das Datenbankkennwort nur zu ändern, wenn die Rechenflotte gestoppt ist, um den Verlust von Buchhaltungsdaten zu vermeiden.
DatabaseName
(Fakultativ,String
)-
Name der Datenbank auf dem Datenbankserver (definiert durch den Parameter Uri), für die verwendet werden soll Slurm Buchhaltung.
Der Name der Datenbank kann Kleinbuchstaben, Zahlen und Unterstriche enthalten. Der Name darf nicht länger als 64 Zeichen sein.
Dieser Parameter ist dem
StorageLoc
Parameter von slurmdbd.confzugeordnet. Wenn
DatabaseName
nicht angegeben, ParallelCluster wird der Name des Clusters verwendet, um einen Wert für zu definieren.StorageLoc
Die Aktualisierung von
DatabaseName
ist zulässig, wobei die folgenden Überlegungen zu beachten sind:-
Wenn eine Datenbank mit einem Namen noch DatabaseName nicht auf dem Datenbankserver existiert, erstellt slurmdbd sie. Es liegt in Ihrer Verantwortung, die neue Datenbank nach Bedarf neu zu konfigurieren (z. B. Hinzufügen der Buchhaltungseinheiten — Cluster, Konten, BenutzerQOSs, Assoziationen usw.).
-
Wenn auf dem Datenbankserver DatabaseName bereits eine Datenbank mit einem Namen existiert, verwendet slurmdbd sie für Slurm Buchhaltungsfunktionen.
-
Anmerkung
Database
wird ab Version 3.3.0 hinzugefügt.
ExternalSlurmdbd
(Optional) Definiert die zu aktivierenden Einstellungen Slurm Abrechnung mit einem externen Slurmdbd-Server. Weitere Informationen finden Sie unter Slurm Buchhaltung mit. AWS ParallelCluster
ExternalSlurmdbd: Host:
string
Port:integer
ExternalSlurmdbd
-Eigenschaften
Host
(Erforderlich,String
)-
Die Adresse des externen Slurmdbd-Servers für Slurm Buchhaltung. Der Host kann entweder eine IP-Adresse oder ein DNS Name sein, der vom Hauptknoten aufgelöst werden kann.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Port
(Optional,Integer
)-
Der Port, auf den der Slurmdbd-Dienst hört. Der Standardwert ist
6819
.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Dns
(Optional) Definiert die Einstellungen für Slurm die für den gesamten Cluster gelten.
Dns: DisableManagedDns:
boolean
HostedZoneId:string
UseEc2Hostnames:boolean
Dns
-Eigenschaften
DisableManagedDns
(Fakultativ,Boolean
)-
Wenn
true
, die DNS Einträge für den Cluster nicht erstellt wurden und Slurm Knotennamen sind nicht auflösbar.AWS ParallelCluster Erstellt standardmäßig eine Route 53-Hosting-Zone, in der Knoten beim Start registriert werden. Der Standardwert ist
false
. Wenn auf gesetztDisableManagedDns
isttrue
, wird die Hosting-Zone nicht von erstellt AWS ParallelCluster.Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.
Warnung
Für den ordnungsgemäßen Betrieb des Clusters ist ein System zur Namensauflösung erforderlich. Wenn auf gesetzt
DisableManagedDns
isttrue
, müssen Sie ein System zur Namensauflösung bereitstellen. Um den EC2 Amazon-Standard zu verwendenDNS, stellen Sie ihnUseEc2Hostnames
auf eintrue
. Alternativ können Sie Ihren eigenen DNS Resolver konfigurieren und sicherstellen, dass die Knotennamen registriert werden, wenn Instances gestartet werden. Sie können dies beispielsweise tun, indem Sie CustomActions/OnNodeStartkonfigurieren.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
HostedZoneId
(Fakultativ,String
)-
Definiert eine benutzerdefinierte Route 53-Hosting-Zonen-ID, die für die DNS Namensauflösung für den Cluster verwendet wird. Falls angegeben, werden Clusterknoten in der angegebenen Hosting-Zone AWS ParallelCluster registriert und keine verwaltete Hosting-Zone erstellt.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
UseEc2Hostnames
(Optional,Boolean
)-
Falls
true
, sind Cluster-Rechenknoten mit dem EC2 Standard-Hostnamen konfiguriert. Das Tool SlurmNodeHostName
wird ebenfalls mit diesen Informationen aktualisiert. Der Standardwert istfalse
.Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.
Anmerkung
Dieser Hinweis ist ab AWS ParallelCluster Version 3.3.0 nicht relevant.
Für AWS ParallelCluster unterstützte Versionen vor 3.3.0:
Wenn auf gesetzt
UseEc2Hostnames
isttrue
, wird die Slurm-Konfigurationsdatei mit den Skripten AWS ParallelClusterprolog
undepilog
gesetzt:-
prolog
wird ausgeführt, um Knoteninformationen zu/etc/hosts
den Rechenknoten hinzuzufügen, wenn jeder Job zugewiesen ist. -
epilog
wird ausgeführt, um Inhalte zu bereinigen, die von geschrieben wurdenprolog
.
Um benutzerdefinierte
epilog
Skriptsprolog
oder Skripts hinzuzufügen, fügen Sie sie den jeweiligen/opt/slurm/etc/pcluster/epilog.d/
Ordnern/opt/slurm/etc/pcluster/prolog.d/
oder hinzu.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
-