Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ich habe Kapazitätsreservierungen auf Abruf (ODCRs) oder zonale Reserved Instances konfiguriert
ODCRsDazu gehören Instances mit mehreren Netzwerkschnittstellen wie P4d, P4de und Trainium (Trn) AWS
Überprüfen Sie in der Cluster-Konfigurationsdatei, ob sich der in einem öffentlichen Subnetz HeadNode
befindet und ob sich die Rechenknoten in einem privaten Subnetz befinden.
ODCRssind anvisiert ODCRS
Ich sehe, Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
obwohl ich es bereits /opt/slurm/etc/pcluster/run_instances_overrides.json
installiert habe, indem ich die Anweisungen in befolge Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR)
Wenn Sie die AWS ParallelCluster Versionen 3.1.1 bis 3.2.1 mit Targeted verwenden ODCRs und auch die Run-Instances JSON Override-Datei verwenden, ist es möglich, dass Sie die JSON Datei nicht richtig formatiert haben. Sie könnten einen Fehler wie den clustermgtd.log
folgenden sehen:
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
Stellen Sie sicher, dass das JSON Dateiformat korrekt ist, indem Sie Folgendes ausführen:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Zeigt Found RunInstances parameters override.
anclustermgtd.log
, wann die Clustererstellung fehlgeschlagen ist oder slurm_resume.log
wann die Ausführung des Jobs fehlgeschlagen ist
Wenn Sie die JSONDatei mit Run-Instances Override verwenden, überprüfen Sie, ob Sie den Warteschlangennamen und den Namen der Rechenressourcen in der /opt/slurm/etc/pcluster/run_instances_overrides.json
Datei korrekt angegeben haben.
Ich An error occurred (InsufficientInstanceCapacity)
werde angezeigt, slurm_resume.log
wenn ich einen Job nicht ausführen kann oder clustermgtd.log
wann ich keinen Cluster erstellen kann
Verwenden von PG- ODCR (Placement GroupODCR)
Wenn Sie eine ODCR mit einer zugehörigen Platzierungsgruppe erstellen, muss derselbe Platzierungsgruppenname in der Konfigurationsdatei verwendet werden. Geben Sie den Namen der entsprechenden Platzierungsgruppe in der Cluster-Konfiguration ein.
Verwendung zonaler Reserved Instances
Wenn Sie zonale Reserved Instances mitPlacementGroup
/Enabled
bis true
in der Cluster-Konfiguration verwenden, wird möglicherweise ein Fehler wie der folgende angezeigt:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
Dieser Fehler tritt möglicherweise auf, weil sich die zonalen Reserved Instances nicht in derselben UC (oder Spine) befinden, was bei der Verwendung von Platzierungsgruppen zu Fehlern bei unzureichender Kapazität (ICEs) führen kann. Sie können diesen Fall überprüfen, indem Sie die PlacementGroup
Gruppeneinstellung in der Clusterkonfiguration deaktivieren, um festzustellen, ob der Cluster die Instances zuweisen kann.