Best practice - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Best practice

Le seguenti sezioni forniscono le migliori pratiche per l'utilizzo AWS ParallelCluster, che includono avvisi sulle prestazioni di rete e sul budget.

Procedure consigliate: selezione del tipo di istanza del nodo principale

Anche se il nodo principale non esegue un processo, le sue funzioni e il suo dimensionamento sono fondamentali per le prestazioni complessive del cluster. Quando scegli il tipo di istanza da utilizzare per il tuo nodo principale, considera le seguenti caratteristiche:

Dimensioni del cluster: il nodo principale orchestra la logica di scalabilità del cluster ed è responsabile del collegamento di nuovi nodi allo scheduler. Per scalare verso l'alto e verso il basso un cluster con un numero elevato di nodi, fornisci al nodo principale una capacità di elaborazione aggiuntiva.

File system condivisi: quando utilizzi file system condivisi, scegli un tipo di istanza con una larghezza di banda di rete e una larghezza di EBS banda Amazon sufficienti per gestire i tuoi flussi di lavoro. Assicurati che il nodo principale sia in grado di esporre un numero sufficiente di directory di NFS server per il cluster e di gestire gli artefatti che devono essere condivisi tra i nodi di elaborazione e il nodo principale.

Migliori pratiche: prestazioni di rete

Le prestazioni di rete sono fondamentali per le applicazioni di elaborazione ad alte prestazioni (HPC). Senza prestazioni di rete affidabili, queste applicazioni non possono funzionare come previsto. Per ottimizzare le prestazioni della rete, prendi in considerazione le seguenti best practice.

  • Gruppo di posizionamento: se stai utilizzando Slurm, valuta la possibilità di configurarli tutti Slurm coda per utilizzare un gruppo di posizionamento del cluster. Il gruppo di posizionamento di un cluster è un raggruppamento logico di istanze all'interno di una singola zona di disponibilità. Per ulteriori informazioni, consulta i gruppi di collocamento nella Amazon EC2 User Guide. Puoi specificare a PlacementGroupnella Networkingsezione della coda, ogni risorsa di calcolo viene assegnata al gruppo di posizionamento della coda. Quando si specifica a PlacementGroupnella Networkingsezione della risorsa di calcolo, quella risorsa di calcolo specifica viene assegnata a quel gruppo di posizionamento. La specifica del gruppo di posizionamento delle risorse di calcolo ha la precedenza sulla specifica della coda per la risorsa di calcolo. Per ulteriori informazioni, vedere SlurmQueues//e/Networking/PlacementGroup. SlurmQueuesComputeResourcesNetworkingPlacementGroup

    Networking: PlacementGroup: Enabled: true Id: your-placement-group-name

    In alternativa, AWS ParallelCluster crea un gruppo di collocamento per te.

    Networking: PlacementGroup: Enabled: true

    A partire dalla AWS ParallelCluster versione 3.3.0, la creazione e la gestione dei gruppi di collocamento sono state modificate. Quando specificate il gruppo di posizionamento da abilitare, senza un name oId, nella coda, a ciascuna risorsa di calcolo viene assegnato un proprio gruppo di posizionamento gestito, anziché un gruppo gestito per l'intera coda. Questo aiuta a ridurre gli errori di capacità insufficiente. Se è necessario disporre di un gruppo di posizionamento per l'intera coda, è possibile utilizzare un gruppo di posizionamento denominato.

    SlurmQueues/Networking/PlacementGroup/Nameè stato aggiunto come alternativa preferita a SlurmQueues//NetworkingPlacementGroup/Id.

    Per ulteriori informazioni, consulta Networking.

  • Rete avanzata: prendete in considerazione la scelta di un tipo di istanza che supporti la rete avanzata. Questa raccomandazione si applica a tutte le istanze di generazione attuale. Per ulteriori informazioni, consulta la sezione Enhanced Networking on Linux nella Amazon EC2 User Guide.

  • Elastic Fabric Adapter: per supportare livelli elevati di comunicazione scalabile da istanza a istanza, prendi in considerazione la scelta di interfacce di EFA rete per la tua rete. L'hardware EFA di bypass personalizzato del sistema operativo (OS) migliora le comunicazioni tra istanze grazie all'elasticità e alla flessibilità on-demand di. Cloud AWSÈ possibile configurare ciascuno Slurm coda ComputeResourceda usare Efa. Per ulteriori informazioni sull'utilizzo EFA con AWS ParallelCluster, vedereElastic Fabric Adapter.

    ComputeResources: - Name: your-compute-resource-name Efa: Enabled: true

    Per ulteriori informazioniEFA, consulta Elastic Fabric Adapter nella Amazon EC2 User Guide for Linux Instances.

  • Larghezza di banda dell'istanza: la larghezza di banda si adatta alla dimensione dell'istanza. Per informazioni sui diversi tipi di istanze, consulta Amazon EBS —optimized instances e Amazon EBS Volume Types nella Amazon EC2 User Guide.

Migliori pratiche: avvisi sul budget

Per gestire i costi delle risorse in AWS ParallelCluster, ti consigliamo di utilizzare Budget AWS le azioni per creare un budget. È inoltre possibile creare avvisi relativi alle soglie di budget definite per AWS risorse selezionate. Per ulteriori informazioni, consulta Configurazione di un'azione di budget nella Guida per l'Budget AWS utente. Allo stesso modo, puoi anche utilizzare Amazon CloudWatch per creare un allarme di fatturazione. Per ulteriori informazioni, consulta Creazione di un allarme di fatturazione per il monitoraggio dei costi di AWS stimati.

Migliori pratiche: spostare un cluster in una nuova versione AWS ParallelCluster secondaria o patch

Attualmente ogni versione AWS ParallelCluster minore è autonoma insieme alla sua pclusterCLI. Per spostare un cluster in una nuova versione secondaria o patch, è necessario ricreare il cluster utilizzando le nuove versioni. CLI

Per ottimizzare il processo di trasferimento di un cluster a una nuova versione secondaria o patch, si consiglia di effettuare le seguenti operazioni:

  • Salva i dati personali in volumi esterni creati all'esterno del cluster, come Amazon EFS e FSx for Lustre. In questo modo, è possibile spostare facilmente i dati da un cluster all'altro in futuro.

  • Crea sistemi di storage condivisi utilizzando i seguenti tipi. È possibile creare questi sistemi utilizzando AWS CLI o AWS Management Console.

    Definire un file system o un volume in una configurazione del cluster come file system o volume esistente. In questo modo, vengono conservati quando si elimina il cluster e possono essere collegati a un nuovo cluster.

    Ti consigliamo di utilizzare i file system Amazon EFS o FSx for Lustre. Entrambi questi sistemi possono essere collegati a più cluster contemporaneamente. Inoltre, è possibile collegare uno di questi sistemi a un nuovo cluster prima di eliminare il cluster esistente.

  • Utilizza azioni bootstrap personalizzate per personalizzare le istanze anziché usarne una personalizzata. AMI Se invece utilizzi una versione personalizzataAMI, devi eliminarla e ricrearla AMI per ogni nuova versione rilasciata.

  • Ti consigliamo di applicare i consigli precedenti nella seguente sequenza:

    1. Aggiorna la configurazione del cluster esistente per utilizzare le definizioni del file system esistenti.

    2. Verifica la pcluster versione e aggiornala se necessario.

    3. Crea e testa il nuovo cluster. Quando testate il nuovo cluster, controllate quanto segue:

      • Assicurati che i tuoi dati siano disponibili nel nuovo cluster.

      • Assicurati che l'applicazione funzioni nel nuovo cluster.

    4. Dopo che il nuovo cluster è stato completamente testato e reso operativo e non è più necessario il cluster esistente, eliminalo.