

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Computação de alta performance
<a name="highperformancecomputing-pattern-list"></a>

**Topics**
+ [Implantação de um sistema de arquivos do Lustre para processamento de dados de alta performance usando o Terraform e a DRA](deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.md)
+ [Configure um painel de monitoramento da Grafana para a AWS ParallelCluster](set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.md)
+ [Mais padrões](highperformancecomputing-more-patterns-pattern-list.md)

# Implantação de um sistema de arquivos do Lustre para processamento de dados de alta performance usando o Terraform e a DRA
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra"></a>

*Arun Bagal e Ishwar Chauthaiwale, Amazon Web Services*

## Resumo
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-summary"></a>

Esse padrão implanta automaticamente um sistema de arquivos Lustre AWS e o integra ao Amazon Elastic Compute Cloud (Amazon) EC2 e ao Amazon Simple Storage Service (Amazon S3).

Esta solução auxilia na configuração rápida de um ambiente de computação de alta performance (HPC) com armazenamento integrado, recursos de computação e acesso aos dados do Amazon S3. Ele combina os recursos de armazenamento do Lustre com as opções de computação flexíveis fornecidas pela Amazon EC2 e o armazenamento de objetos escalável no Amazon S3, para que você possa lidar com cargas de trabalho com uso intenso de dados em aprendizado de máquina, HPC e análise de big data.

O padrão usa um módulo HashiCorp Terraform e o Amazon for Lustre FSx para simplificar o seguinte processo:
+ Provisionamento de um sistema de arquivos do Lustre
+ Estabelecendo uma associação de repositório de dados (DRA) entre FSx o Lustre e um bucket do S3 para vincular o sistema de arquivos Lustre aos objetos do Amazon S3
+ Criação de uma EC2 instância
+ Montagem do sistema de arquivos Lustre com o DRA vinculado ao Amazon S3 na instância EC2 

Entre os benefícios desta solução, destacam-se:
+ Design modular. Você pode gerenciar e atualizar de forma simples cada componente desta solução.
+ Escalabilidade. Você pode implantar rapidamente ambientes consistentes em Contas da AWS nossas regiões.
+ Flexibilidade. Você pode personalizar a implantação para atender às suas necessidades específicas.
+ Práticas recomendadas. Esse padrão usa módulos pré-configurados que seguem as AWS melhores práticas.

Para obter mais informações sobre sistemas de arquivos do Lustre, consulte o [site do Lustre](https://www.lustre.org/).

## Pré-requisitos e limitações
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-prereqs"></a>

**Pré-requisitos **
+ Um ativo Conta da AWS
+ Uma política de privilégios mínimos AWS Identity and Access Management (IAM) (consulte [as instruções](https://aws.amazon.com/blogs/security/techniques-for-writing-least-privilege-iam-policies/))

**Limitações**

FSx for Lustre limita o sistema de arquivos Lustre a uma única zona de disponibilidade, o que pode ser uma preocupação se você tiver requisitos de alta disponibilidade. Caso a zona de disponibilidade em que o sistema de arquivos está localizado falhe, o acesso ao sistema será interrompido até a recuperação. Para garantir alta disponibilidade, é possível usar a DRA para vincular o sistema de arquivos do Lustre ao Amazon S3 e transferir dados entre zonas de disponibilidade.

**Versões do produto**
+ [Terraform versão 1.9.3 ou posterior](https://developer.hashicorp.com/terraform/install?product_intent=terraform)
+ [HashiCorp AWS Provider versão 4.0.0 ou posterior](https://registry.terraform.io/providers/hashicorp/aws/latest)

## Arquitetura
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-architecture"></a>

O diagrama a seguir mostra a arquitetura do Lustre e a complementar Serviços da AWS no Nuvem AWS. FSx 

![\[FSx para implantação do Lustre com AWS KMS, Amazon EC2, Amazon Logs e CloudWatch Amazon S3.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/images/pattern-img/51d38589-e752-42cd-9f46-59c3c8d0bfd3/images/c1c21952-fd6f-4b1d-9bf8-09b2f4f4459f.png)


A arquitetura inclui o seguinte:
+ Um bucket do S3 é usado como local de armazenamento durável, escalável e econômico para os dados. A integração entre FSx o Lustre e o Amazon S3 fornece um sistema de arquivos de alto desempenho que está perfeitamente vinculado ao Amazon S3.
+ FSx for Lustre executa e gerencia o sistema de arquivos Lustre.
+ O Amazon CloudWatch Logs coleta e monitora dados de log do sistema de arquivos. Esses logs fornecem insights sobre a performance, a integridade e a atividade do sistema de arquivos do Lustre.
+ A Amazon EC2 é usada para acessar sistemas de arquivos Lustre usando o cliente Lustre de código aberto. EC2 as instâncias podem acessar sistemas de arquivos de outras zonas de disponibilidade dentro da mesma nuvem privada virtual (VPC). A configuração de rede permite o acesso entre sub-redes dentro da VPC. Depois que o sistema de arquivos do Lustre é montado na instância, você pode trabalhar com arquivos e diretórios como se fossem parte de um sistema de arquivos local.
+ AWS Key Management Service (AWS KMS) aumenta a segurança do sistema de arquivos fornecendo criptografia para dados em repouso.

**Automação e escala**

O Terraform facilita a implantação, o gerenciamento e a escalabilidade dos seus sistemas de arquivos do Lustre em diferentes ambientes. No FSx Lustre, um único sistema de arquivos tem limitações de tamanho, então talvez seja necessário escalar horizontalmente criando vários sistemas de arquivos. É possível usar o Terraform para provisionar vários sistemas de arquivos do Lustre de acordo com as necessidades da sua workload.

## Ferramentas
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-tools"></a>

**Serviços da AWS**
+ O [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) ajuda você a centralizar os registros de todos os seus sistemas e aplicativos, Serviços da AWS para que você possa monitorá-los e arquivá-los com segurança.
+ [O Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html) fornece capacidade de computação escalável no. Nuvem AWS Você poderá iniciar quantos servidores virtuais precisar e escalá-los na vertical rapidamente.
+ [O Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html) torna fácil e econômico lançar, executar e escalar um sistema de arquivos Lustre de alto desempenho.
+ [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) ajuda você a criar e controlar chaves criptográficas para ajudar a proteger seus dados.
+ O [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.

**Repositório de código**

O código desse padrão está disponível no [sistema de arquivos GitHub Provision FSx for Lustre usando o repositório Terraform](https://github.com/aws-samples/provision-fsx-lustre-with-terraform).

## Práticas recomendadas
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-best-practices"></a>
+ As variáveis apresentadas a seguir definem o sistema de arquivos do Lustre. Certifique-se de que essas configurações estejam corretas de acordo com o ambiente, seguindo as instruções apresentadas na seção [Épicos](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics).
  + `storage_capacity`— A capacidade de armazenamento do sistema de arquivos Lustre, em GiBs. O valor mínimo e padrão é 1.200 GiB.
  + `deployment_type`: o tipo de implantação do sistema de arquivos do Lustre. Para obter uma explicação das duas opções `PERSISTENT_1` e `PERSISTENT_2` (padrão), consulte a [documentação do FSx Lustre.](https://docs.aws.amazon.com/fsx/latest/LustreGuide/using-fsx-lustre.html#persistent-file-system)
  + `per_unit_storage_throughput`— A taxa de transferência de leitura e gravação, em MBs por segundo por TiB.  
  + `subnet_id`— O ID da sub-rede privada em que você deseja FSx implantar o Lustre.
  + `vpc_id`— O ID da sua nuvem privada virtual AWS onde você deseja FSx implantar o Lustre.
  + `data_repository_path`: o caminho para o bucket do S3 que será vinculado ao sistema de arquivos do Lustre.
  + `iam_instance_profile`— O perfil da instância do IAM a ser usado para iniciar a EC2 instância.
  + `kms_key_id`— O Amazon Resource Name (ARN) da AWS KMS chave que será usada para criptografia de dados.
+ Garanta o acesso adequado à rede e o posicionamento correto na VPC usando as variáveis `security_group` e `vpc_id`.
+ Execute o comando `terraform plan`, conforme descrito na seção [Épicos](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics), para obter uma visualização prévia e verificar as alterações antes de aplicá-las. Esse procedimento auxilia na detecção de problemas potenciais e assegura que você tenha ciência do que será implantado.
+ Use o comando `terraform validate`, conforme descrito na seção [Épicos](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics), para verificar erros de sintaxe e confirmar se a configuração está correta.

## Épicos
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics"></a>

### Configurar o ambiente
<a name="set-up-your-environment"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Instale o Terraform. | Para instalar o Terraform em sua máquina local, siga as instruções apresentadas na [documentação do Terraform](https://developer.hashicorp.com/terraform/tutorials/aws-get-started/install-cli). | AWS DevOps, DevOps engenheiro | 
| Configure as AWS credenciais. | Para configurar o perfil AWS Command Line Interface (AWS CLI) para a conta, siga as instruções na [AWS documentação](https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-files.html). | AWS DevOps, DevOps engenheiro | 
| Clone o GitHub repositório. | Para clonar o GitHub repositório, execute o comando:<pre>git clone https://github.com/aws-samples/provision-fsx-lustre-with-terraform.git</pre> | AWS DevOps, DevOps engenheiro | 

### Configure e implante FSx para o Lustre
<a name="configure-and-deploy-fsxlustre"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Atualize a configuração de implantação. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps engenheiro | 
| Realize a inicialização do ambiente do Terraform. | Para inicializar o ambiente e executar o módulo do Terraform `fsx_deployment`, execute:<pre>terraform init</pre> | AWS DevOps, DevOps engenheiro | 
| Valide a sintaxe do Terraform. | Para verificar erros de sintaxe e confirmar que a configuração está correta, execute:<pre>terraform validate </pre> | AWS DevOps, DevOps engenheiro | 
| Valide a configuração do Terraform. | Para criar um plano de execução do Terraform e visualizar previamente a implantação, execute:<pre>terraform plan -var-file terraform.tfvars</pre> | AWS DevOps, DevOps engenheiro | 
| Realize a implantação do módulo do Terraform. | Para implantar os recursos do FSx for Lustre, execute:<pre>terraform apply -var-file terraform.tfvars</pre> | AWS DevOps, DevOps engenheiro | 

### Limpe AWS os recursos
<a name="clean-up-aws-resources"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Remova AWS os recursos. | Depois de terminar de usar seu ambiente FSx for Lustre, você pode remover os AWS recursos implantados pelo Terraform para evitar cobranças desnecessárias. O módulo do Terraform fornecido no repositório de código automatiza essa limpeza.[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps engenheiro | 

## Solução de problemas
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-troubleshooting"></a>


| Problema | Solução | 
| --- | --- | 
| FSx for Lustre retorna erros. | Para obter ajuda com FSx problemas do Lustre, consulte [Solução de problemas do Amazon FSx for Lustre na documentação](https://docs.aws.amazon.com/fsx/latest/LustreGuide/troubleshooting.html) do FSx for Lustre. | 

## Recursos relacionados
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-resources"></a>
+ [Construindo o Amazon FSx for Lustre usando o Terraform](https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/fsx_lustre_file_system) (referência do AWS provedor na documentação do Terraform)
+ [Introdução ao Amazon FSx for Lustre (FSx para](https://docs.aws.amazon.com/fsx/latest/LustreGuide/getting-started.html) documentação do Lustre)
+ [AWS postagens de blog sobre Amazon FSx for Lustre](https://aws.amazon.com/blogs/storage/tag/amazon-fsx-for-lustre/)

# Configure um painel de monitoramento da Grafana para a AWS ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta e William Lu, Amazon Web Services*

## Resumo
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

 ParallelCluster A AWS ajuda você a implantar e gerenciar clusters de computação de alta performance (HPC). Ele oferece suporte aos agendadores de trabalhos de código aberto AWS Batch e Slurm. Embora a AWS ParallelCluster esteja integrada à Amazon CloudWatch para registro e métricas, ela não fornece um painel de monitoramento para a carga de trabalho.

O [painel Grafana para AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) é um painel de monitoramento para a AWS. ParallelCluster Ele fornece informações sobre o agendador de tarefas e métricas detalhadas de monitoramento no nível do sistema operacional (SO). Para obter mais informações sobre os painéis incluídos nessa solução, consulte [Exemplos de painéis no GitHub repositório](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards). Essas métricas ajudam você a entender melhor a workload de HPC e seu desempenho. No entanto, o código do painel não é atualizado para as versões mais recentes da AWS ParallelCluster ou para os pacotes de código aberto usados na solução. Esse padrão aprimora a solução para fornecer os seguintes benefícios:
+ Compatível com AWS ParallelCluster v3
+ Usa a versão mais recente dos pacotes de código aberto, incluindo Prometheus, Grafana, Prometheus Slurm Exporter e NVIDIA DCGM-Exporter
+ Aumenta o número de núcleos de CPU e GPUs que os trabalhos do Slurm usam
+ Adiciona um painel de monitoramento de trabalhos
+ Aprimora o painel de monitoramento de nós da GPU para nós com 4 ou 8 unidades de processamento gráfico () GPUs

Essa versão da solução aprimorada foi implementada e verificada no ambiente de produção de HPC de um cliente da AWS.

## Pré-requisitos e limitações
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Pré-requisitos **
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), instalada e configurada.
+ Uma [configuração de rede](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) compatível com a AWS ParallelCluster. Esse padrão usa a [AWS ParallelCluster usando a configuração de duas sub-redes](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets), o que requer uma sub-rede pública, uma sub-rede privada, um gateway de internet e um gateway NAT.
+ Todos os nós de ParallelCluster cluster da AWS devem ter acesso à Internet. Isso é necessário para que os scripts de instalação possam baixar o software de código aberto e as imagens do Docker.
+ Um [par de chaves](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) na Amazon Elastic Compute Cloud (Amazon EC2). Os recursos que têm esse par de chaves têm acesso Secure Shell (SSH) ao nó principal.

**Limitações**
+ Esse padrão foi projetado para suportar Ubuntu 20.04 LTS. Se você estiver usando uma versão diferente do Ubuntu ou se usar Amazon Linux ou CentOS, precisará modificar os scripts fornecidos com essa solução. Essas modificações não estão incluídas nesse padrão.

**Versões do produto**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Considerações sobre faturamento e custos**
+ A solução implantada nesse padrão não é coberta pelo nível gratuito. As cobranças se aplicam à Amazon EC2, ao Amazon FSx for Lustre, ao gateway NAT no Amazon VPC e ao Amazon Route 53.

## Arquitetura
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Arquitetura de destino**

O diagrama a seguir mostra como um usuário pode acessar o painel de monitoramento da AWS ParallelCluster no nó principal. O nó principal executa NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter e NGINX Open Source. Os nós de computação executam o Prometheus Node Exporter e também executam o NVIDIA DCGM-Exporter se o nó contiver. GPUs O nó principal recupera informações dos nós de computação e exibe esses dados no painel da Grafana.

![\[Acessando o painel de monitoramento da AWS ParallelCluster no nó principal.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


Na maioria dos casos, o nó principal não está muito carregado porque o agendador de tarefas não exige uma quantidade significativa de CPU ou memória. Os usuários acessam o painel no nó principal usando SSL na porta 443.

Todos os espectadores autorizados podem visualizar anonimamente os painéis de monitoramento. Somente o administrador da Grafana pode modificar os painéis. Você configura uma senha para o administrador da Grafana no `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml` arquivo.

## Ferramentas
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**Serviços da AWS**
+ O [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) é um protocolo de exibição remota de alto desempenho que ajuda você a fornecer desktops remotos e streaming de aplicativos de qualquer nuvem ou datacenter para qualquer dispositivo, em diferentes condições de rede.
+  ParallelClusterA [AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) ajuda você a implantar e gerenciar clusters de computação de alta performance (HPC). Ele oferece suporte aos agendadores de trabalhos de código aberto AWS Batch e Slurm.
+ O [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
+ A [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) ajuda a iniciar recursos da AWS em uma rede virtual definida por você.

**Outras ferramentas**
+ O [Docker](https://www.docker.com/) é um conjunto de produtos de plataforma como serviço (PaaS) que usam a virtualização no nível do sistema operacional para fornecer software em contêineres.
+ O [Grafana](https://grafana.com/docs/grafana/latest/introduction/) é um software de código aberto que ajuda você a consultar, visualizar, alertar e explorar métricas, registros e rastreamentos.
+ [O NGINX Open Source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) é um servidor web de código aberto e proxy reverso.
+ O [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) é um conjunto de ferramentas para gerenciar e monitorar unidades de processamento gráfico (GPUs) de data center NVIDIA em ambientes de cluster. Nesse padrão, você usa o [DCGM-Exporter, que ajuda a exportar](https://github.com/NVIDIA/dcgm-exporter) métricas de GPU do Prometheus.
+ *O [Prometheus](https://prometheus.io/docs/introduction/overview/) é um kit de ferramentas de monitoramento de sistema de código aberto que coleta e armazena suas métricas como dados de séries temporais com pares de valores-chave associados, chamados de rótulos.* [Nesse padrão, você também usa o [Prometheus Slurm](https://github.com/vpenso/prometheus-slurm-exporter) Exporter para coletar e exportar métricas e usa o Prometheus Node Exporter para exportar métricas dos nós de computação.](https://github.com/prometheus/node_exporter)
+ O [Ubuntu](https://help.ubuntu.com/) é um sistema operacional de código aberto baseado em Linux, projetado para servidores corporativos, desktops, ambientes de nuvem e IoT.

**Repositório de código**

O código desse padrão está disponível no GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)repositório.

## Épicos
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Crie os recursos necessários
<a name="create-the-required-resources"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Criar um bucket do S3. | Crie um bucket do Amazon S3. Você usa esse bucket para armazenar os scripts de configuração. Para obter instruções, consulte [Criação de um bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) na documentação do Amazon S3. | AWS geral | 
| Clonar o repositório. | Clone o GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)repositório executando o comando a seguir.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps engenheiro | 
| Crie uma senha de administrador. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Fazer scripts de shell Linux  | 
| Copie os arquivos necessários para o bucket do S3. | Copie o script [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) e a [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)pasta no bucket do S3 que você criou. Para obter instruções, consulte [Fazer uploads de objetos](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html) na documentação do Amazon S3. | AWS geral | 
| Configure um grupo de segurança adicional para o nó principal. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrador da AWS | 
| Configure uma política do IAM para o nó principal. | Crie uma política do baseada em identidade para o nó principal. Essa política permite que o nó recupere dados métricos da Amazon CloudWatch. O GitHub repositório contém um exemplo de [política](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json). Para obter instruções, consulte [Criar políticas do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) na documentação do AWS Identity and Access Management (IAM). | Administrador da AWS | 
| Configure uma política do IAM para os nós de computação. | Crie uma política do baseada em identidade para os nós de computação. Essa política permite que o nó crie as tags que contêm o ID do trabalho e o proprietário do trabalho. O GitHub repositório contém um exemplo de [política](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Para obter instruções, consulte [Criação de políticas do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) na documentação do IAM.Se usar o arquivo de exemplo fornecido, substitua os seguintes valores:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrador da AWS | 

### Criar um cluster
<a name="create-the-cluster"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Modifique o arquivo de modelo de cluster fornecido. | Crie o ParallelCluster cluster da AWS. Use o arquivo de modelo [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) CloudFormation AWS fornecido como ponto de partida para criar o cluster. Substitua os seguintes valores no modelo fornecido:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrador da AWS | 
| Crie o cluster. | Na AWS ParallelCluster CLI, insira o seguinte comando. Isso implanta o CloudFormation modelo e cria o cluster. Para obter mais informações sobre esse comando, consulte [pcluster create-cluster na documentação da AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html). ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | Administrador da AWS | 
| Monitore a criação do cluster. | Insira o comando a seguir para monitorar a criação do cluster. Para obter mais informações sobre esse comando, consulte [pcluster describe-cluster na documentação da AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html). ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | Administrador da AWS | 

### Usar os painéis do Grafana
<a name="using-the-grafana-dashboards"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Acesso ao portal Grafana. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrador da AWS | 

### Limpe a solução para parar de incorrer em custos associados
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Tarefa | Description | Habilidades necessárias | 
| --- | --- | --- | 
| Excluir o cluster. | Insira o comando a seguir para excluir o cluster. Para obter mais informações sobre esse comando, consulte [pcluster delete-cluster na documentação da AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html). ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | Administrador da AWS | 
| Exclua as políticas do IAM. | Exclua as políticas que você criou para o nó principal e o nó de computação. Para obter mais informações sobre como excluir políticas, consulte [Criação de políticas do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html) na documentação do IAM. | Administrador da AWS | 
| Para excluir a regra e o grupo de segurança | Exclua o grupo de segurança que você criou para o nó principal. Para obter mais informações, consulte [Excluir regras de grupos de segurança](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) e [Excluir um grupo de segurança](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) na documentação do Amazon VPC. | Administrador da AWS | 
| Exclua o bucket do S3. | Exclua o bucket do S3 que você criou para armazenar os scripts de configuração. Para obter mais informações, consulte [Excluir um bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) na documentação do Amazon S3 | AWS geral | 

## Solução de problemas
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Problema | Solução | 
| --- | --- | 
| O nó principal não está acessível no navegador. | Verifique o grupo de segurança e confirme se a porta de entrada 443 está aberta. | 
| Grafana não abre. | No nó principal, verifique o log do contêiner`docker logs Grafana`. | 
| Algumas métricas não têm dados. | No nó principal, verifique os logs de todos os contêineres. | 

## Recursos relacionados
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**Documentação da AWS**
+ [Políticas do IAM para a Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Outros recursos da AWS**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Painel de monitoramento para a AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (publicação no blog da AWS)

**Outros recursos**
+ [Sistema de monitoramento Prometheus](https://prometheus.io/)
+ [Grafana](https://grafana.com/)

# Mais padrões
<a name="highperformancecomputing-more-patterns-pattern-list"></a>

**Topics**
+ [Implementação de diagnósticos e solução de problemas com base em IA no Kubernetes usando a integração do K8sGPT e do Amazon Bedrock](implement-ai-powered-kubernetes-diagnostics-and-troubleshooting-with-k8sgpt-and-amazon-bedrock-integration.md)