View a markdown version of this page

Domande frequenti sull'utilizzo di Capacity Blocks con AWS PCS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Domande frequenti sull'utilizzo di Capacity Blocks con AWS PCS

Ho appena pagato un Capacity Block e ho subito provato a usarlo con AWS PCS, ma la creazione del gruppo di nodi di calcolo non è riuscita. Che cos'è successo?

Il tuo Capacity Block potrebbe non essere in uno stato scheduled oactive. Riprova dopo che il Capacity Block è scheduled oactive.

Sto usando un Capacity Block in AWS PCS e ho acquistato un'estensione prima della scadenza. Come posso continuare a usarlo in AWS PCS?

Non devi fare nulla per continuare a utilizzare il Capacity Block in AWS PCS. La data di fine del Capacity Block viene aggiornata dopo che il pagamento dell'estensione è andato a buon fine. Finché il Capacity Block non scade, il gruppo di nodi di calcolo continua a funzionare. Se il pagamento dell'estensione fallisce, il Capacity Block rimane active e il gruppo di nodi di calcolo funziona fino alla scadenza del Capacity Block alla data di fine originale.

Cosa succede ai miei lavori in coda e in esecuzione se il mio Capacity Block scade?

I lavori in coda che non sono iniziati prima della scadenza del Capacity Block rimangono in sospeso finché non si collega un altro gruppo di nodi di elaborazione alla coda o si aggiorna il gruppo di nodi di calcolo con un nuovo Capacity Block. Puoi comunque inviare lavori alla coda. Le impostazioni di Slurm influiscono sui lavori attivi. Per impostazione predefinita, i lavori attivi vengono automaticamente rimessi in coda, ma potrebbero presentare errori o fallire.

Il mio Capacity Block è scaduto. Devo fare qualcosa?

Non devi fare niente. Puoi controllare lo stato delle tue prenotazioni di capacità EC2 sulla console Amazon EC2. Quando un Capacity Block scade, il gruppo di nodi di calcolo associato a quel Capacity Block continua a esistere e a gestire le stesse code. Il gruppo di nodi di calcolo non dispone di istanze per eseguire i job. Puoi eliminare il gruppo di nodi di calcolo o dissociarlo dalle code per impedire agli utenti di inviare lavori che non verranno eseguiti.

Voglio usare un nuovo Capacity Block con il mio gruppo di nodi di calcolo AWS PCS. Cosa devo fare?

Ti consigliamo di creare un nuovo gruppo di nodi di calcolo per utilizzare il nuovo Capacity Block. Per ulteriori informazioni, consulta Configurare un gruppo di nodi di calcolo AWS PCS per utilizzare un Capacity Block.

Come posso condividere 1 Capacity Block tra cluster e servizi?

È possibile suddividere un Capacity Block tra più cluster e servizi. Ad esempio, per dividere un Capacity Block con 64 p5.48xlarge istanze con 20 nodi su PCS-Cluster-1, 16 nodi su PCS-Cluster-2 e i nodi rimanenti per altri servizi, impostate entrambi minInstanceCount e su 20 per PCS-Cluster-1 e 16 per PCS-Cluster-2. maxInstanceCount

Posso usare più di 1 Capacity Block o una capacità combinata con 1 gruppo di nodi di calcolo?

No. È possibile associare solo 1 blocco di capacità a un singolo gruppo di nodi di elaborazione. AWS PCS non supporta gruppi di prenotazione della capacità che combinano più blocchi di capacità.

Come faccio a sapere quando iniziano o scadono i miei Capacity Block?

Indipendentemente dal AWS PCS, Amazon EC2 invia un Capacity Block Reservation Delivered evento EventBridge quando inizia una prenotazione Capacity Block e un Capacity Block Reservation Expiration Warning evento 40 minuti prima della scadenza della prenotazione Capacity Block. Per ulteriori informazioni, consulta Monitora i blocchi di capacità utilizzati EventBridge nella Guida per l'utente di Amazon Elastic Compute Cloud.

In che modo Slurm monitora lo stato del mio Capacity Block?

Puoi correre sinfo per capire come AWS PCS utilizza il Capacity Block. Nell'output di esempio seguente, una coda è associata a un gruppo di nodi di calcolo che esegue 4 istanze da un active Capacity Block. I nodi sono nello stato idle Slurm (disponibili per l'uso e non ancora assegnati a nessun lavoro).

$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]

Se invece i nodi sono in maint stato, puoi correre scontrol show res per vedere i dettagli sulla prenotazione Slurm che controlla questo stato. Nell'output di esempio seguente, il Capacity Block ha una data di inizio futura. scheduled

$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled
Come posso sapere se gli errori che ricevo durante l'avvio della capacità sono dovuti al fatto che il mio Capacity Block è condiviso?

Controlla le prenotazioni di capacità nella console Amazon EC2 per scoprire quante istanze del Capacity Block vengono fornite attivamente. Controlla i tag di ogni istanza per scoprire quale servizio o cluster la utilizza. Ad esempio, tutte le istanze di AWS PCS hanno tag AWS PCS come quelli aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk che indicano a quali cluster e gruppi di nodi di calcolo appartiene l'istanza. È quindi possibile verificare se il Capacity Block ha la capacità massima.

scontrol show nodesPer verificare se un nodo Capacity Block in un cluster AWS PCS si sta attivandoReservationCapacityExceeded:

[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]
Quando più gruppi di nodi di elaborazione sono collegati alla stessa coda, come posso forzare l'esecuzione di un processo su istanze supportate da Capacity Block?

Puoi utilizzare le funzionalità e i vincoli di Slurm per bloccare un lavoro su un determinato set di nodi. Ti consigliamo di non impostare i pesi Slurm per ogni gruppo di nodi di calcolo perché funziona solo con nodi che non si trovano nello stato. maint