AWS ParallelCluster processi - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS ParallelCluster processi

Questa sezione si applica ai cluster distribuiti con Slurm. Se utilizzato con questo scheduler, AWS ParallelCluster gestisce il provisioning e la rimozione dei nodi di calcolo interagendo con il job scheduler sottostante.

Per HPC i cluster basati su AWS Batch, AWS ParallelCluster si basa sulle funzionalità fornite dalla gestione dei nodi di calcolo. AWS Batch

clustermgtd

Le seguenti attività vengono eseguite dal daemon di gestione del cluster.

  • Pulizia delle partizioni inattive

  • Gestione di Slurm prenotazioni e nodi associati ai Capacity Blocks (vedere la sezione seguente)

  • Gestione statica della capacità: assicurati che la capacità statica sia sempre attiva e integra

  • Sincronizza lo scheduler con AmazonEC2.

  • Pulizia delle istanze orfane

  • Ripristina lo stato del nodo di pianificazione su Amazon, EC2 terminazione che avviene al di fuori del flusso di lavoro di sospensione

  • Gestione non corretta EC2 delle istanze Amazon (mancati controlli di integrità di EC2 Amazon)

  • Gestione degli eventi di manutenzione programmata

  • Gestione non corretta dei nodi di Scheduler (controlli di integrità di Scheduler non riusciti)

Gestione di Slurm prenotazioni e nodi associati ai Capacity Blocks

ParallelCluster supporta On-Demand Capacity Reservations (ODCR) e Capacity Blocks for Machine Learning (CB). Al contrarioODCR, CB può avere un orario di inizio futuro ed è limitato nel tempo.

Clustermgtd cerca i nodi non integri in un ciclo e chiude tutte le istanze Amazon inattive, sostituendole con EC2 nuove istanze se si tratta di nodi statici.

ParallelCluster gestisce i nodi statici associati a Capacity Blocks in modo diverso. AWS ParallelCluster crea un cluster anche se il CB non è ancora attivo e le istanze vengono avviate automaticamente una volta che il CB è attivo.

Il Slurm i nodi corrispondenti alle risorse di calcolo associate e CBs che non sono ancora attivi vengono mantenuti in manutenzione fino al raggiungimento dell'ora di avvio del CB. Slurm i nodi rimarranno in uno stato di prenotazione/manutenzione associato a Slurm utente amministratore, il che significa che può accettare lavori, ma i lavori rimarranno in sospeso fino al Slurm la prenotazione viene rimossa.

Clustermgtd creerà/eliminerà automaticamente Slurm prenotazioni, mettendo in manutenzione i relativi nodi CB in base allo stato del CB. Quando CB sarà attivo, Slurm la prenotazione verrà rimossa, i nodi verranno avviati e saranno disponibili per i lavori in sospeso o per l'invio di nuovi lavori.

Quando viene raggiunta l'ora di fine del CB, i nodi verranno riportati allo stato di prenotazione/manutenzione. Spetta agli utenti reinviare/mettere in coda i lavori su una nuova coda/risorsa di calcolo quando CB non è più attivo e le istanze vengono terminate.

clusterstatusmgtd

Il daemon di gestione dello stato del cluster gestisce l'aggiornamento dello stato della flotta di calcolo. Ogni minuto recupera lo stato della flotta memorizzato in una tabella DynamoDB e gestisce qualsiasi richiesta /. STOP START

computemgtd

I processi Compute Management Daemon (computemgtd) vengono eseguiti su ciascuno dei nodi di calcolo del cluster. Ogni cinque (5) minuti, il demone di gestione del calcolo conferma che il nodo principale è raggiungibile ed è integro. Se trascorrono cinque (5) minuti durante i quali il nodo principale non può essere raggiunto o non è integro, il nodo di elaborazione viene spento.