Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ho configurato le prenotazioni di capacità su richiesta (ODCRs) o le istanze riservate zonali
ODCRs che includono istanze con più interfacce di rete, come P4d, P4de e Trainium (Trn) AWS
Nel file di configurazione del cluster, verifica che si trovi in una sottorete pubblica e che i nodi di elaborazione HeadNode
si trovino in una sottorete privata.
ODCRs sono ODCRS mirati
Vedo Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
anche se l'ho già fatto seguendo le istruzioni riportate /opt/slurm/etc/pcluster/run_instances_overrides.json
in Avvio di istanze con On-Demand Capacity Reservations (ODCR)
Se utilizzi le AWS ParallelCluster versioni da 3.1.1 a 3.2.1 con targeted ODCRs e utilizzi anche il file JSON run instances override, è possibile che il file JSON non sia formattato correttamente. Potresti visualizzare un errore, come il seguente: clustermgtd.log
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
Using default: {} in /var/log/parallelcluster/clustermgtd.
Verifica che il formato di file JSON sia corretto eseguendo quanto segue:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Found RunInstances parameters override.
Riconoscere clustermgtd.log
quando la creazione del cluster non è riuscita o slurm_resume.log
quando l'esecuzione del processo non è riuscita
Se utilizzi il file run instances override JSON, verifica di aver impostato correttamente il nome della coda e il nome delle risorse di calcolo nel file. /opt/slurm/etc/pcluster/run_instances_overrides.json
An error occurred (InsufficientInstanceCapacity)
Accetto slurm_resume.log
quando non riesco a eseguire un processo o clustermgtd.log
quando non riesco a creare un cluster
Utilizzo di PG-ODCR (Placement Group ODCR)
Quando si crea un ODCR con un gruppo di posizionamento associato, è necessario utilizzare lo stesso nome del gruppo di posizionamento nel file di configurazione. Imposta il nome del gruppo di posizionamento corrispondente nella configurazione del cluster.
Utilizzo di istanze riservate zonali
Se utilizzi istanze riservate zonali conPlacementGroup
/Enabled
to true
nella configurazione del cluster, potresti visualizzare un errore, come il seguente:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity.
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
È possibile che ciò si verifichi perché le istanze riservate zonali non sono collocate nella stessa UC (o spine), il che può causare errori di capacità insufficiente (ICEs) quando si utilizzano i gruppi di collocamento. Puoi verificare questo caso disabilitando l'impostazione PlacementGroup
Group nella configurazione del cluster per determinare se il cluster può allocare le istanze.