Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configura una dashboard di monitoraggio Grafana per AWS ParallelCluster
Creato da Dario La Porta () e William Lu () AWS AWS
Archivio di codice: parallelcluster-monitoring-dashboard | Ambiente: PoC o pilota | Tecnologie: elaborazione ad alte prestazioni; analisi; gestione e governance |
Carico di lavoro: open source | AWSservizi: AWS ParallelCluster |
Riepilogo
AWS ParallelCluster consente di distribuire e gestire cluster di elaborazione ad alte prestazioni (HPC). Supporta gli scheduler di lavoro open source AWS Batch e Slurm. Sebbene AWS ParallelCluster sia integrato con Amazon CloudWatch per la registrazione e le metriche, non fornisce una dashboard di monitoraggio per il carico di lavoro.
La dashboard Grafana per AWS ParallelCluster
Supporta v3 AWS ParallelCluster
Utilizza l'ultima versione dei pacchetti open source, tra cui Prometheus, Grafana, Prometheus Slurm Exporter e -Exporter NVIDIA DCGM
Aumenta GPUs il numero di core utilizzati dai job Slurm CPU
Aggiunge una dashboard di monitoraggio dei lavori
Migliora la dashboard di monitoraggio dei GPU nodi per i nodi con 4 o 8 unità di elaborazione grafica () GPUs
Questa versione della soluzione avanzata è stata implementata e verificata nell'ambiente di HPC produzione di un AWS cliente.
Prerequisiti e limitazioni
Prerequisiti
AWS ParallelCluster CLI, installato e configurato.
Una configurazione di rete supportata per AWS ParallelCluster. Questo modello AWS ParallelCluster utilizza la configurazione con due sottoreti, che richiede una sottorete pubblica, una sottorete privata, un gateway Internet e un gateway. NAT
Tutti i nodi AWS ParallelCluster del cluster devono avere accesso a Internet. Ciò è necessario affinché gli script di installazione possano scaricare il software open source e le immagini Docker.
Una coppia di chiavi in Amazon Elastic Compute Cloud (AmazonEC2). Le risorse che hanno questa coppia di key pair hanno accesso Secure Shell (SSH) al nodo principale.
Limitazioni
Questo pattern è progettato per supportare Ubuntu 20.04LTS. Se utilizzi una versione diversa di Ubuntu o se usi Amazon Linux o CentOS, devi modificare gli script forniti con questa soluzione. Queste modifiche non sono incluse in questo schema.
Versioni del prodotto
Ubuntu 20.04 LTS
ParallelCluster 3.X
Considerazioni sulla fatturazione e sui costi
La soluzione implementata secondo questo schema non è coperta dal livello gratuito. Si applicano costi per AmazonEC2, Amazon FSx for Lustre, il NAT gateway di Amazon VPC e Amazon Route 53.
Architettura
Architettura Target
Il diagramma seguente mostra come un utente può accedere alla dashboard di monitoraggio per AWS ParallelCluster il nodo principale. Il nodo principale utilizza Prometheus NICEDCV, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter e Open Source. NGINX I nodi di calcolo eseguono Prometheus Node Exporter ed eseguono anche -Exporter se il nodo contiene. NVIDIA DCGM GPUs Il nodo principale recupera le informazioni dai nodi di calcolo e visualizza tali dati nella dashboard di Grafana.
Nella maggior parte dei casi, il nodo principale non è sovraccaricato perché il job scheduler non richiede una quantità significativa CPU di memoria. Gli utenti accedono alla dashboard sul nodo principale utilizzando SSL la porta 443.
Tutti gli spettatori autorizzati possono visualizzare in modo anonimo i dashboard di monitoraggio. Solo l'amministratore Grafana può modificare i dashboard. Si configura una password per l'amministratore Grafana nel aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml
file.
Strumenti
AWSservizi
NICEDCVè un protocollo di visualizzazione remota ad alte prestazioni che consente di fornire desktop remoti e lo streaming di applicazioni da qualsiasi cloud o data center a qualsiasi dispositivo, in condizioni di rete diverse.
AWS ParallelClusterconsente di distribuire e gestire cluster di elaborazione ad alte prestazioni (). HPC Supporta gli scheduler di lavoro open source AWS Batch e Slurm.
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
Amazon Virtual Private Cloud (AmazonVPC) ti aiuta a lanciare AWS risorse in una rete virtuale che hai definito.
Altri strumenti
Docker
è un insieme di prodotti Platform as a Service (PaaS) che utilizzano la virtualizzazione a livello di sistema operativo per fornire software in container. Grafana
è un software open source che ti aiuta a interrogare, visualizzare, avvisare ed esplorare metriche, log e tracce. NGINXOpen Source
è un server Web open source e un proxy inverso. NVIDIAData Center GPU Manager (DCGM)
è una suite di strumenti per la gestione e il monitoraggio delle unità di elaborazione grafica dei NVIDIA data center (GPUs) in ambienti cluster. In questo modello, usi DCGM-Exporter, che ti aiuta a esportare le GPU metriche da Prometheus. Prometheus
è un toolkit di monitoraggio del sistema open source che raccoglie e archivia le sue metriche come dati di serie temporali con coppie chiave-valore associate, chiamate etichette. In questo modello, si utilizza anche Prometheus Slurm Exporter per raccogliere ed esportare metriche e si utilizza Prometheus Node Exporter per esportare le metriche dai nodi di calcolo. Ubuntu
è un sistema operativo open source basato su Linux progettato per server aziendali, desktop, ambienti cloud e IoT.
Archivio di codici
Il codice per questo pattern è disponibile nel GitHub pcluster-monitoring-dashboard
Epiche
Attività | Descrizione | Competenze richieste |
---|---|---|
Crea un bucket S3. | Creare un bucket Amazon S3. Questo bucket viene utilizzato per archiviare gli script di configurazione. Per istruzioni, consulta Creazione di un bucket nella documentazione di Amazon S3. | Informazioni generali AWS |
Clonare il repository. | Clona il GitHub pcluster-monitoring-dashboard
| DevOps ingegnere |
Crea una password di amministratore. |
| Scripting con Linux Shell |
Copia i file richiesti nel bucket S3. | Copia lo script post_install.sh | Informazioni generali AWS |
Configura un gruppo di sicurezza aggiuntivo per il nodo principale. |
| AWSamministratore |
Configura una IAM politica per il nodo principale. | Crea una policy basata sull'identità per il nodo principale. Questa policy consente al nodo di recuperare i dati metrici da Amazon. CloudWatch Il GitHub repository contiene una policy di esempio. | AWSamministratore |
Configura una IAM policy per i nodi di calcolo. | Crea una policy basata sull'identità per i nodi di calcolo. Questa politica consente al nodo di creare i tag che contengono l'ID del lavoro e il proprietario del lavoro. Il GitHub repository contiene un esempio di policy Se utilizzi il file di esempio fornito, sostituisci i seguenti valori:
| AWSamministratore |
Attività | Descrizione | Competenze richieste |
---|---|---|
Modifica il file modello di cluster fornito. | Crea il AWS ParallelCluster cluster. Utilizza il file AWS CloudFormation modello cluster.yaml
| AWSamministratore |
Crea il cluster . | Nel AWS ParallelCluster CLI, immettere il seguente comando. Questo distribuisce il CloudFormation modello e crea il cluster. Per ulteriori informazioni su questo comando, consulta pcluster create-cluster nella documentazione. AWS ParallelCluster
| AWSamministratore |
Monitora la creazione del cluster. | Immettere il seguente comando per monitorare la creazione del cluster. Per ulteriori informazioni su questo comando, consulta pcluster describe-cluster nella documentazione. AWS ParallelCluster
| AWSamministratore |
Attività | Descrizione | Competenze richieste |
---|---|---|
Accesso al portale Grafana. |
| AWSamministratore |
Attività | Descrizione | Competenze richieste |
---|---|---|
Elimina il cluster. | Immettere il seguente comando per eliminare il cluster. Per ulteriori informazioni su questo comando, consulta pcluster delete-cluster nella documentazione. AWS ParallelCluster
| AWSamministratore |
Eliminare le IAM politiche. | Elimina le politiche che hai creato per il nodo principale e il nodo di calcolo. Per ulteriori informazioni sull'eliminazione delle politiche, consulta Eliminazione delle IAM politiche nella documentazione. IAM | AWSamministratore |
Eliminare il gruppo e la regola di sicurezza. | Eliminare il gruppo di sicurezza creato per il nodo principale. Per ulteriori informazioni, consulta Eliminare le regole del gruppo di sicurezza ed Eliminare un gruppo di sicurezza nella VPC documentazione di Amazon. | AWSamministratore |
Eliminare il bucket S3. | Elimina il bucket S3 che hai creato per archiviare gli script di configurazione. Per ulteriori informazioni, consulta Eliminazione di un bucket nella documentazione di Amazon S3. | Generale AWS |
Risoluzione dei problemi
Problema | Soluzione |
---|---|
Il nodo principale non è accessibile nel browser. | Controlla il gruppo di sicurezza e conferma che la porta in ingresso 443 sia aperta. |
Grafana non si apre. | Sul nodo principale, controlla il registro del contenitore per |
Alcune metriche non contengono dati. | Sul nodo principale, controlla i log dei contenitori di tutti i contenitori. |
Risorse correlate
AWSdocumentazione
Altre AWS risorse
Dashboard di monitoraggio per AWS ParallelCluster
(post AWS sul blog)
Altre risorse