

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# High Performance Computing
<a name="highperformancecomputing-pattern-list"></a>

**Topics**
+ [Implementa un file system Lustre per l'elaborazione dei dati ad alte prestazioni utilizzando Terraform e DRA](deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.md)
+ [Configura una dashboard di monitoraggio Grafana per AWS ParallelCluster](set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.md)
+ [Altri modelli](highperformancecomputing-more-patterns-pattern-list.md)

# Implementa un file system Lustre per l'elaborazione dei dati ad alte prestazioni utilizzando Terraform e DRA
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra"></a>

*Arun Bagal e Ishwar Chauthaiwale, Amazon Web Services*

## Riepilogo
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-summary"></a>

Questo modello implementa automaticamente un file system Lustre AWS e lo integra con Amazon Elastic Compute Cloud (Amazon) EC2 e Amazon Simple Storage Service (Amazon S3).

Questa soluzione consente di configurare rapidamente un ambiente di elaborazione ad alte prestazioni (HPC) con storage integrato, risorse di elaborazione e accesso ai dati Amazon S3. Combina le funzionalità di storage di Lustre con le opzioni di elaborazione flessibili fornite da Amazon EC2 e lo storage di oggetti scalabile di Amazon S3, in modo da poter affrontare carichi di lavoro ad alta intensità di dati in machine learning, HPC e analisi dei big data.

Il modello utilizza un modulo HashiCorp Terraform e Amazon FSx for Lustre per semplificare il seguente processo:
+ Fornitura di un file system Lustre
+ Creazione di un'associazione di repository di dati (DRA) tra FSx for Lustre e un bucket S3 per collegare il file system Lustre agli oggetti Amazon S3
+ Creazione di un'istanza EC2 
+ Montaggio del file system Lustre con il DRA collegato ad Amazon S3 sull'istanza EC2 

I vantaggi di questa soluzione includono:
+ Design modulare. È possibile gestire e aggiornare facilmente i singoli componenti di questa soluzione.
+ Scalabilità. È possibile implementare rapidamente ambienti coerenti tra Account AWS le nostre regioni.
+ Flessibilità. È possibile personalizzare l'implementazione in base alle proprie esigenze specifiche.
+ Le migliori pratiche. Questo modello utilizza moduli preconfigurati che seguono le AWS migliori pratiche.

Per ulteriori informazioni sui file system Lustre, consultate il sito Web [Lustre](https://www.lustre.org/).

## Prerequisiti e limitazioni
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-prereqs"></a>

**Prerequisiti**
+ Un attivo Account AWS
+ Una politica di privilegi minimi AWS Identity and Access Management (IAM) (vedi [istruzioni](https://aws.amazon.com/blogs/security/techniques-for-writing-least-privilege-iam-policies/))

**Limitazioni**

FSx for Lustre limita il file system Lustre a una singola zona di disponibilità, il che potrebbe essere un problema se si hanno requisiti di elevata disponibilità. Se la zona di disponibilità che contiene il file system si guasta, l'accesso al file system viene perso fino al ripristino. Per ottenere un'elevata disponibilità, puoi utilizzare DRA per collegare il file system Lustre ad Amazon S3 e trasferire dati tra zone di disponibilità.

**Versioni del prodotto**
+ [Terraform versione 1.9.3 o successiva](https://developer.hashicorp.com/terraform/install?product_intent=terraform)
+ [HashiCorp AWS Provider versione 4.0.0 o successiva](https://registry.terraform.io/providers/hashicorp/aws/latest)

## Architecture
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-architecture"></a>

Il diagramma seguente mostra l'architettura di FSx for Lustre e quella complementare in. Servizi AWS Cloud AWS

![\[FSx per la distribuzione di Lustre con AWS KMS, Amazon EC2, Amazon Logs e CloudWatch Amazon S3.\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/images/pattern-img/51d38589-e752-42cd-9f46-59c3c8d0bfd3/images/c1c21952-fd6f-4b1d-9bf8-09b2f4f4459f.png)


L'architettura include quanto segue:
+ Un bucket S3 viene utilizzato come posizione di archiviazione durevole, scalabile ed economica per i dati. L'integrazione tra FSx for Lustre e Amazon S3 fornisce un file system ad alte prestazioni perfettamente collegato ad Amazon S3.
+ FSx for Lustre esegue e gestisce il file system Lustre.
+ Amazon CloudWatch Logs raccoglie e monitora i dati di log dal file system. Questi log forniscono informazioni dettagliate sulle prestazioni, sullo stato e sull'attività del file system Lustre.
+ Amazon EC2 viene utilizzato per accedere ai file system Lustre utilizzando il client Lustre open source. EC2 le istanze possono accedere ai file system da altre zone di disponibilità all'interno dello stesso cloud privato virtuale (VPC). La configurazione di rete consente l'accesso attraverso sottoreti all'interno del VPC. Dopo aver montato il file system Lustre sull'istanza, puoi lavorare con i relativi file e directory proprio come faresti con un file system locale.
+ AWS Key Management Service (AWS KMS) migliora la sicurezza del file system fornendo la crittografia dei dati inattivi.

**Automazione e scalabilità**

Terraform semplifica l'implementazione, la gestione e la scalabilità dei file system Lustre in più ambienti. In FSx Lustre, un singolo file system ha limiti di dimensione, quindi potrebbe essere necessario ridimensionarlo orizzontalmente creando più file system. Puoi utilizzare Terraform per fornire più file system Lustre in base alle tue esigenze di carico di lavoro.

## Tools (Strumenti)
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-tools"></a>

**Servizi AWS**
+ [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) ti aiuta a centralizzare i log di tutti i tuoi sistemi e applicazioni, Servizi AWS così puoi monitorarli e archiviarli in modo sicuro.
+ [Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html) fornisce capacità di elaborazione scalabile in. Cloud AWS Puoi avviare tutti i server virtuali di cui hai bisogno e dimensionarli rapidamente.
+ [Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html) semplifica ed economica l'avvio, l'esecuzione e la scalabilità di un file system Lustre ad alte prestazioni.
+ [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) ti aiuta a creare e controllare chiavi crittografiche per proteggere i tuoi dati.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.

**Archivio di codice**

Il codice per questo modello è disponibile nel [file system GitHub Provision FSx for Lustre utilizzando il repository Terraform](https://github.com/aws-samples/provision-fsx-lustre-with-terraform).

## Best practice
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-best-practices"></a>
+ Le seguenti variabili definiscono il file system Lustre. Assicurati di configurarle correttamente in base al tuo ambiente, come indicato nella sezione [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics).
  + `storage_capacity`— La capacità di archiviazione del file system Lustre, in. GiBs L'impostazione minima e predefinita è 1200 GiB.
  + `deployment_type`— Il tipo di distribuzione per il file system Lustre. Per una spiegazione delle due opzioni `PERSISTENT_1` e `PERSISTENT_2` (impostazione predefinita), consultate la documentazione [FSx di Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/using-fsx-lustre.html#persistent-file-system).
  + `per_unit_storage_throughput`— La velocità di lettura e scrittura, in secondi MBs per TiB.  
  + `subnet_id`— L'ID della sottorete privata in cui si desidera implementare FSx Lustre.
  + `vpc_id`— L'ID del tuo cloud privato virtuale su AWS cui desideri implementare FSx Lustre.
  + `data_repository_path`— Il percorso del bucket S3 che sarà collegato al file system Lustre.
  + `iam_instance_profile`— Il profilo dell'istanza IAM da utilizzare per avviare l'istanza. EC2 
  + `kms_key_id`— L'Amazon Resource Name (ARN) della AWS KMS chiave che verrà utilizzata per la crittografia dei dati.
+ Garantisci l'accesso e il posizionamento corretti alla rete all'interno del VPC utilizzando le variabili `security_group` and`vpc_id`.
+ Esegui il `terraform plan` comando come descritto nella sezione [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) per visualizzare in anteprima e verificare le modifiche prima di applicarle. Questo aiuta a catturare potenziali problemi e assicura che tu sia a conoscenza di ciò che verrà distribuito.
+ Usa il `terraform validate` comando come descritto nella sezione [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) per verificare la presenza di errori di sintassi e confermare che la configurazione sia corretta.

## Epiche
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics"></a>

### Configurare l'ambiente
<a name="set-up-your-environment"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Installa Terraform. | Per installare Terraform sul tuo computer locale, segui le istruzioni nella documentazione di [Terraform](https://developer.hashicorp.com/terraform/tutorials/aws-get-started/install-cli). | AWS DevOps, DevOps ingegnere | 
| Configura AWS le credenziali. | Per configurare il profilo AWS Command Line Interface (AWS CLI) per l'account, segui le istruzioni nella [AWS documentazione](https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-files.html). | AWS DevOps, DevOps ingegnere | 
| Clona il GitHub repository. | Per clonare il GitHub repository, esegui il comando:<pre>git clone https://github.com/aws-samples/provision-fsx-lustre-with-terraform.git</pre> | AWS DevOps, DevOps ingegnere | 

### Configura e distribuisci FSx per Lustre
<a name="configure-and-deploy-fsxlustre"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Aggiorna la configurazione di distribuzione. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps ingegnere | 
| Inizializza l'ambiente Terraform. | Per inizializzare il tuo ambiente per eseguire il modulo Terraform`fsx_deployment`, esegui:<pre>terraform init</pre> | AWS DevOps, DevOps ingegnere | 
| Convalida la sintassi Terraform. | Per verificare la presenza di errori di sintassi e confermare che la configurazione sia corretta, esegui:<pre>terraform validate </pre> | AWS DevOps, DevOps ingegnere | 
| Convalida la configurazione Terraform. | Per creare un piano di esecuzione Terraform e visualizzare in anteprima la distribuzione, esegui:<pre>terraform plan -var-file terraform.tfvars</pre> | AWS DevOps, DevOps ingegnere | 
| Implementa il modulo Terraform. | Per distribuire le risorse FSx for Lustre, esegui:<pre>terraform apply -var-file terraform.tfvars</pre> | AWS DevOps, DevOps ingegnere | 

### Pulisci AWS le risorse
<a name="clean-up-aws-resources"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Rimuovi AWS risorse. | Dopo aver finito di utilizzare l'ambiente FSx for Lustre, puoi rimuovere le AWS risorse distribuite da Terraform per evitare di incorrere in costi inutili. Il modulo Terraform fornito nel repository del codice automatizza questa pulizia.[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps ingegnere | 

## risoluzione dei problemi
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-troubleshooting"></a>


| Problema | Soluzione | 
| --- | --- | 
| FSx for Lustre restituisce errori. | Per assistenza sui problemi FSx relativi a Lustre, consulta [Risoluzione dei problemi di Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/troubleshooting.html) nella documentazione di FSx for Lustre. | 

## Risorse correlate
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-resources"></a>
+ [Creazione di Amazon FSx for Lustre utilizzando Terraform](https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/fsx_lustre_file_system) (riferimento al AWS provider nella documentazione di Terraform)
+ [Guida introduttiva ad Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/getting-started.html) (documentazione FSx per Lustre)
+ [AWS post di blog su Amazon FSx for Lustre](https://aws.amazon.com/blogs/storage/tag/amazon-fsx-for-lustre/)

# Configura una dashboard di monitoraggio Grafana per AWS ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta e William Lu, Amazon Web Services*

## Riepilogo
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ti ParallelCluster aiuta a distribuire e gestire cluster HPC (High Performance Computing). Supporta gli strumenti di pianificazione dei lavori open source AWS Batch e Slurm. Sebbene AWS ParallelCluster sia integrato con Amazon CloudWatch per la registrazione e le metriche, non fornisce una dashboard di monitoraggio per il carico di lavoro.

La [dashboard Grafana per AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) è una dashboard di monitoraggio per AWS. ParallelCluster Fornisce informazioni dettagliate sulla pianificazione dei lavori e metriche di monitoraggio dettagliate a livello di sistema operativo (OS). Per ulteriori informazioni sui dashboard inclusi in questa soluzione, consulta [Dashboard di esempio](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards) nel repository. GitHub Queste metriche consentono di comprendere meglio il carico di lavoro HPC e le relative prestazioni. Tuttavia, il codice del dashboard non viene aggiornato per le versioni più recenti di AWS ParallelCluster o per i pacchetti open source utilizzati nella soluzione. Questo modello migliora la soluzione per offrire i seguenti vantaggi:
+ Supporta AWS ParallelCluster v3
+ Utilizza l'ultima versione dei pacchetti open source, tra cui Prometheus, Grafana, Prometheus Slurm Exporter e NVIDIA DCGM-Exporter
+ Aumenta il GPUs numero di core della CPU e quelli utilizzati dai job Slurm
+ Aggiunge una dashboard di monitoraggio dei lavori
+ Migliora la dashboard di monitoraggio dei nodi GPU per i nodi con 4 o 8 unità di elaborazione grafica () GPUs

Questa versione della soluzione avanzata è stata implementata e verificata nell'ambiente di produzione HPC di un cliente AWS.

## Prerequisiti e limitazioni
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Prerequisiti**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), installata e configurata.
+ Una [configurazione di rete](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) supportata per AWS ParallelCluster. Questo modello utilizza [AWS ParallelCluster utilizzando una configurazione a due sottoreti, che richiede una sottorete pubblica, una sottorete privata, un gateway Internet e un gateway NAT](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets).
+ Tutti i nodi ParallelCluster del cluster AWS devono avere accesso a Internet. Ciò è necessario affinché gli script di installazione possano scaricare il software open source e le immagini Docker.
+ Una [coppia di chiavi](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) in Amazon Elastic Compute Cloud (Amazon EC2). Le risorse che hanno questa coppia di key pair hanno accesso Secure Shell (SSH) al nodo principale.

**Limitazioni**
+ Questo pattern è progettato per supportare Ubuntu 20.04 LTS. Se utilizzi una versione diversa di Ubuntu o se usi Amazon Linux o CentOS, devi modificare gli script forniti con questa soluzione. Queste modifiche non sono incluse in questo schema.

**Versioni del prodotto**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Considerazioni sulla fatturazione e sui costi**
+ La soluzione implementata secondo questo schema non è coperta dal livello gratuito. Si applicano costi per Amazon EC2, Amazon FSx for Lustre, il gateway NAT in Amazon VPC e Amazon Route 53.

## Architecture
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Architettura Target**

Il diagramma seguente mostra come un utente può accedere alla dashboard di monitoraggio per AWS ParallelCluster sul nodo principale. Il nodo principale esegue NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter e NGINX Open Source. I nodi di calcolo eseguono Prometheus Node Exporter e eseguono anche NVIDIA DCGM-Exporter se il nodo contiene. GPUs Il nodo principale recupera le informazioni dai nodi di calcolo e visualizza tali dati nella dashboard di Grafana.

![\[Accesso alla dashboard di monitoraggio per AWS ParallelCluster sul nodo principale.\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


Nella maggior parte dei casi, il nodo principale non è sovraccaricato perché il job scheduler non richiede una quantità significativa di CPU o memoria. Gli utenti accedono alla dashboard sul nodo principale utilizzando SSL sulla porta 443.

Tutti gli spettatori autorizzati possono visualizzare in modo anonimo le dashboard di monitoraggio. Solo l'amministratore Grafana può modificare i dashboard. Si configura una password per l'amministratore Grafana nel `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml` file.

## Tools (Strumenti)
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**Servizi AWS**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) è un protocollo di visualizzazione remota ad alte prestazioni che consente di fornire desktop remoti e lo streaming di applicazioni da qualsiasi cloud o data center a qualsiasi dispositivo, in condizioni di rete variabili.
+ [AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) ti ParallelCluster aiuta a distribuire e gestire cluster HPC (High Performance Computing). Supporta gli strumenti di pianificazione dei lavori open source AWS Batch e Slurm.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) ti aiuta a lanciare le risorse AWS in una rete virtuale che hai definito.

**Altri strumenti**
+ [Docker](https://www.docker.com/) è un insieme di prodotti Platform as a Service (PaaS) che utilizzano la virtualizzazione a livello di sistema operativo per fornire software in container.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) è un software open source che ti aiuta a interrogare, visualizzare, avvisare ed esplorare metriche, log e tracce.
+ [NGINX Open Source è un server web open source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) e un reverse proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) è una suite di strumenti per la gestione e il monitoraggio delle unità di elaborazione grafica dei data center NVIDIA () in ambienti cluster. GPUs In questo modello, si utilizza [DCGM-Exporter, che consente di esportare](https://github.com/NVIDIA/dcgm-exporter) le metriche della GPU da Prometheus.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *è un toolkit di monitoraggio del sistema open source che raccoglie e archivia le sue metriche come dati di serie temporali con coppie chiave-valore associate, chiamate etichette.* [In questo modello, si utilizza anche [Prometheus Slurm Exporter per raccogliere ed esportare metriche e si utilizza Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) Node Exporter per esportare le metriche dai nodi di calcolo.](https://github.com/prometheus/node_exporter)
+ [Ubuntu](https://help.ubuntu.com/) è un sistema operativo open source basato su Linux progettato per server aziendali, desktop, ambienti cloud e IoT.

**Archivio di codici**

Il codice per questo pattern è disponibile nel GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)repository.

## Epiche
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Crea le risorse necessarie
<a name="create-the-required-resources"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Crea un bucket S3. | Creare un bucket Amazon S3. Questo bucket viene utilizzato per archiviare gli script di configurazione. Per istruzioni, consulta [Creazione di un bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) nella documentazione di Amazon S3. | Informazioni generali su AWS | 
| Clonare il repository. | Clona il GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)repository eseguendo il seguente comando.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps ingegnere | 
| Crea una password di amministratore. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Scripting con Linux Shell | 
| Copia i file richiesti nel bucket S3. | Copia lo script [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) e la [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)cartella nel bucket S3 che hai creato. Per istruzioni, consulta [Caricamento di oggetti](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html) nella documentazione di Amazon S3. | Informazioni generali su AWS | 
| Configura un gruppo di sicurezza aggiuntivo per il nodo principale. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 
| Configura una policy IAM per il nodo principale. | Crea una policy basata sull'identità per il nodo principale. Questa policy consente al nodo di recuperare i dati metrici da Amazon. CloudWatch [Il GitHub repository contiene una policy di esempio.](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json) Per istruzioni, consulta [Creazione di policy IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) nella documentazione di AWS Identity and Access Management (IAM). | Amministratore AWS | 
| Configura una policy IAM per i nodi di calcolo. | Crea una policy basata sull'identità per i nodi di calcolo. Questa politica consente al nodo di creare i tag che contengono l'ID del lavoro e il proprietario del lavoro. Il GitHub repository contiene un esempio di [policy](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Per istruzioni, consulta [Creazione di politiche IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) nella documentazione IAM.Se utilizzi il file di esempio fornito, sostituisci i seguenti valori:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 

### Creazione del cluster
<a name="create-the-cluster"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Modifica il file modello di cluster fornito. | Crea il ParallelCluster cluster AWS. Utilizza il file modello CloudFormation AWS [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) fornito come punto di partenza per creare il cluster. Sostituisci i seguenti valori nel modello fornito:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 
| Crea il cluster. | Nella ParallelCluster CLI di AWS, inserisci il seguente comando. Questo distribuisce il CloudFormation modello e crea il cluster. Per ulteriori informazioni su questo comando, consulta [pcluster create-cluster nella documentazione](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html) AWS. ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | Amministratore AWS | 
| Monitora la creazione del cluster. | Immettere il seguente comando per monitorare la creazione del cluster. Per ulteriori informazioni su questo comando, consulta [pcluster describe-cluster nella documentazione AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html). ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | Amministratore AWS | 

### Utilizzo delle dashboard Grafana
<a name="using-the-grafana-dashboards"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Accesso al portale Grafana. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 

### Pulisci la soluzione per evitare di incorrere nei costi associati
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Elimina il cluster. | Immettere il seguente comando per eliminare il cluster. Per ulteriori informazioni su questo comando, consulta [pcluster delete-cluster nella documentazione](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) AWS. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | Amministratore AWS | 
| Elimina le politiche IAM. | Elimina le policy che hai creato per il nodo principale e il nodo di calcolo. Per ulteriori informazioni sull'eliminazione delle policy, consulta [Eliminazione delle policy IAM nella documentazione IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html). | Amministratore AWS | 
| Elimina il gruppo e la regola di sicurezza. | Eliminare il gruppo di sicurezza creato per il nodo principale. Per ulteriori informazioni, consulta [Eliminare le regole del gruppo di sicurezza](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) ed [Eliminare un gruppo di sicurezza](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) nella documentazione di Amazon VPC. | Amministratore AWS | 
| Eliminare il bucket S3. | Elimina il bucket S3 che hai creato per archiviare gli script di configurazione. Per ulteriori informazioni, consulta [Eliminazione di un bucket nella documentazione](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) di Amazon S3. | Informazioni generali su AWS | 

## risoluzione dei problemi
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Problema | Soluzione | 
| --- | --- | 
| Il nodo principale non è accessibile nel browser. | Controlla il gruppo di sicurezza e conferma che la porta in ingresso 443 sia aperta. | 
| Grafana non si apre. | Sul nodo principale, controlla il registro del contenitore per`docker logs Grafana`. | 
| Alcune metriche non contengono dati. | Sul nodo principale, controlla i log dei contenitori di tutti i contenitori. | 

## Risorse correlate
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**Documentazione AWS**
+ [Politiche IAM per Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Altre risorse AWS**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Dashboard di monitoraggio per AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (post sul blog AWS)

**Altre risorse**
+ [Sistema di monitoraggio Prometheus](https://prometheus.io/)
+ [Grafana](https://grafana.com/)

# Altri modelli
<a name="highperformancecomputing-more-patterns-pattern-list"></a>

**Topics**
+ [Implementa la diagnostica e la risoluzione dei problemi di Kubernetes basate sull'intelligenza artificiale con K8SGPT e l'integrazione con Amazon Bedrock](implement-ai-powered-kubernetes-diagnostics-and-troubleshooting-with-k8sgpt-and-amazon-bedrock-integration.md)