

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Komputasi performa tinggi
<a name="highperformancecomputing-pattern-list"></a>

**Topics**
+ [Menerapkan sistem file Lustre untuk pemrosesan data berkinerja tinggi dengan menggunakan Terraform dan DRA](deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.md)
+ [Siapkan dasbor pemantauan Grafana untuk AWS ParallelCluster](set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.md)
+ [Lebih banyak pola](highperformancecomputing-more-patterns-pattern-list.md)

# Menerapkan sistem file Lustre untuk pemrosesan data berkinerja tinggi dengan menggunakan Terraform dan DRA
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra"></a>

*Arun Bagal dan Ishwar Chathaiwale, Amazon Web Services*

## Ringkasan
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-summary"></a>

Pola ini secara otomatis menerapkan sistem file Lustre AWS dan mengintegrasikannya dengan Amazon Elastic Compute Cloud (Amazon EC2) dan Amazon Simple Storage Service (Amazon S3).

Solusi ini membantu Anda mengatur lingkungan komputasi kinerja tinggi (HPC) dengan cepat dengan penyimpanan terintegrasi, sumber daya komputasi, dan akses data Amazon S3. Ini menggabungkan kemampuan penyimpanan Lustre dengan opsi komputasi fleksibel yang disediakan oleh Amazon EC2 dan penyimpanan objek yang dapat diskalakan di Amazon S3, sehingga Anda dapat mengatasi beban kerja intensif data dalam pembelajaran mesin, HPC, dan analitik data besar.

Pola menggunakan modul HashiCorp Terraform dan Amazon FSx for Lustre untuk merampingkan proses berikut:
+ Penyediaan sistem file Lustre
+ Membuat asosiasi repositori data (DRA) antara Lustre dan bucket S3 FSx untuk menautkan sistem file Lustre dengan objek Amazon S3
+ Membuat sebuah EC2 instance
+ Memasang sistem file Lustre dengan DRA terkait Amazon S3 pada instance EC2 

Manfaat dari solusi ini meliputi:
+ Desain modular. Anda dapat dengan mudah memelihara dan memperbarui komponen individual dari solusi ini.
+ Skalabilitas. Anda dapat dengan cepat menerapkan lingkungan yang konsisten di seluruh Akun AWS atau Wilayah.
+ Fleksibilitas. Anda dapat menyesuaikan penerapan agar sesuai dengan kebutuhan spesifik Anda.
+ Praktik terbaik. Pola ini menggunakan modul yang telah dikonfigurasi sebelumnya yang mengikuti praktik AWS terbaik.

Untuk informasi lebih lanjut tentang sistem file Lustre, lihat situs web [Lustre](https://www.lustre.org/).

## Prasyarat dan batasan
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-prereqs"></a>

**Prasyarat**
+ Aktif Akun AWS
+ [Kebijakan hak istimewa terkecil AWS Identity and Access Management (IAM) (lihat instruksi)](https://aws.amazon.com/blogs/security/techniques-for-writing-least-privilege-iam-policies/)

**Batasan**

FSx untuk Lustre membatasi sistem file Lustre ke satu Availability Zone, yang bisa menjadi perhatian jika Anda memiliki persyaratan ketersediaan yang tinggi. Jika Availability Zone yang berisi sistem file gagal, akses ke sistem file hilang sampai pemulihan. Untuk mencapai ketersediaan tinggi, Anda dapat menggunakan DRA untuk menautkan sistem file Lustre dengan Amazon S3, dan mentransfer data antara Availability Zones.

**Versi produk**
+ [Terraform versi 1.9.3 atau yang lebih baru](https://developer.hashicorp.com/terraform/install?product_intent=terraform)
+ [HashiCorp AWS Provider versi 4.0.0 atau yang lebih baru](https://registry.terraform.io/providers/hashicorp/aws/latest)

## Arsitektur
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-architecture"></a>

Diagram berikut menunjukkan arsitektur FSx untuk Lustre dan komplementer Layanan AWS dalam. AWS Cloud

![\[FSx untuk penerapan Lustre dengan AWS KMS, Amazon, Amazon Log, CloudWatch dan EC2 Amazon S3.\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/images/pattern-img/51d38589-e752-42cd-9f46-59c3c8d0bfd3/images/c1c21952-fd6f-4b1d-9bf8-09b2f4f4459f.png)


Arsitekturnya meliputi:
+ Bucket S3 digunakan sebagai lokasi penyimpanan data yang tahan lama, terukur, dan hemat biaya. Integrasi antara FSx untuk Lustre dan Amazon S3 menyediakan sistem file berkinerja tinggi yang terhubung secara mulus dengan Amazon S3.
+ FSx untuk Lustre menjalankan dan mengelola sistem file Lustre.
+ Amazon CloudWatch Logs mengumpulkan dan memantau data log dari sistem file. Log ini memberikan wawasan tentang kinerja, kesehatan, dan aktivitas sistem file Lustre Anda.
+ Amazon EC2 digunakan untuk mengakses sistem file Lustre dengan menggunakan klien Lustre open source. EC2 instance dapat mengakses sistem file dari Availability Zone lain dalam virtual private cloud (VPC) yang sama. Konfigurasi jaringan memungkinkan akses di seluruh subnet dalam VPC. Setelah sistem file Lustre dipasang pada instance, Anda dapat bekerja dengan file dan direktorinya sama seperti Anda akan menggunakan sistem file lokal.
+ AWS Key Management Service (AWS KMS) meningkatkan keamanan sistem file dengan menyediakan enkripsi untuk data saat istirahat.

**Otomatisasi dan skala**

Terraform memudahkan penerapan, pengelolaan, dan skala sistem file Lustre Anda di berbagai lingkungan. FSx Untuk Lustre, satu sistem file memiliki batasan ukuran, jadi Anda mungkin perlu menskalakan secara horizontal dengan membuat beberapa sistem file. Anda dapat menggunakan Terraform untuk menyediakan beberapa sistem file Lustre berdasarkan kebutuhan beban kerja Anda.

## Alat
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-tools"></a>

**Layanan AWS**
+ [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) membantu Anda memusatkan log dari semua sistem, aplikasi, Layanan AWS sehingga Anda dapat memantau dan mengarsipkannya dengan aman.
+ [Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html) menyediakan kapasitas komputasi yang dapat diskalakan di. AWS Cloud Anda dapat meluncurkan server virtual sebanyak yang Anda butuhkan dan dengan cepat meningkatkannya ke atas atau ke bawah.
+ [Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html) memudahkan dan hemat biaya untuk meluncurkan, menjalankan, dan menskalakan sistem file Lustre berkinerja tinggi.
+ [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) membantu Anda membuat dan mengontrol kunci kriptografi untuk membantu melindungi data Anda.
+ [Amazon Simple Storage Service (Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.

**Repositori kode**

Kode untuk pola ini tersedia di GitHub [Provision FSx for Lustre Filesystem](https://github.com/aws-samples/provision-fsx-lustre-with-terraform) menggunakan repositori Terraform.

## Praktik terbaik
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-best-practices"></a>
+ Variabel berikut mendefinisikan sistem file Lustre. Pastikan untuk mengonfigurasi ini dengan benar berdasarkan lingkungan Anda, seperti yang diinstruksikan di bagian [Epik](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics).
  + `storage_capacity`— Kapasitas penyimpanan sistem file Lustre, di. GiBs Pengaturan minimum dan default adalah 1200 GiB.
  + `deployment_type`— Jenis penyebaran untuk sistem file Lustre. Untuk penjelasan tentang dua opsi, `PERSISTENT_1` dan `PERSISTENT_2` (default), lihat dokumentasi [FSx untuk Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/using-fsx-lustre.html#persistent-file-system).
  + `per_unit_storage_throughput`— Throughput baca dan tulis, dalam MBs per detik per TiB.  
  + `subnet_id`— ID subnet pribadi tempat Anda ingin menyebarkan FSx untuk Lustre.
  + `vpc_id`— ID cloud pribadi virtual Anda di AWS tempat yang ingin Anda gunakan FSx untuk Lustre.
  + `data_repository_path`— Jalur ke bucket S3 yang akan ditautkan ke sistem file Lustre.
  + `iam_instance_profile`— Profil instans IAM yang digunakan untuk meluncurkan EC2 instance.
  + `kms_key_id`— Nama Sumber Daya Amazon (ARN) dari AWS KMS kunci yang akan digunakan untuk enkripsi data.
+ Pastikan akses dan penempatan jaringan yang tepat di dalam VPC dengan menggunakan variabel `security_group` dan`vpc_id`.
+ Jalankan `terraform plan` perintah seperti yang dijelaskan di bagian [Epik](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) untuk melihat pratinjau dan memverifikasi perubahan sebelum menerapkannya. Ini membantu menangkap potensi masalah dan memastikan bahwa Anda mengetahui apa yang akan digunakan.
+ Gunakan `terraform validate` perintah seperti yang dijelaskan di bagian [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) untuk memeriksa kesalahan sintaks dan untuk mengonfirmasi bahwa konfigurasi Anda benar.

## Epik
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics"></a>

### Siapkan lingkungan Anda
<a name="set-up-your-environment"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Instal Terraform. | Untuk menginstal Terraform di mesin lokal Anda, ikuti instruksi dalam dokumentasi [Terraform](https://developer.hashicorp.com/terraform/tutorials/aws-get-started/install-cli). | AWS DevOps, DevOps insinyur | 
| Siapkan AWS kredensil. | Untuk mengatur profil AWS Command Line Interface (AWS CLI) untuk akun, ikuti instruksi dalam [AWS dokumentasi](https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-files.html). | AWS DevOps, DevOps insinyur | 
| Kloning GitHub repositori. | Untuk mengkloning GitHub repositori, jalankan perintah:<pre>git clone https://github.com/aws-samples/provision-fsx-lustre-with-terraform.git</pre> | AWS DevOps, DevOps insinyur | 

### Konfigurasikan dan terapkan FSx untuk Lustre
<a name="configure-and-deploy-fsxlustre"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Perbarui konfigurasi penerapan. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps insinyur | 
| Inisialisasi lingkungan Terraform. | Untuk menginisialisasi lingkungan Anda untuk menjalankan `fsx_deployment` modul Terraform, jalankan:<pre>terraform init</pre> | AWS DevOps, DevOps insinyur | 
| Validasi sintaks Terraform. | Untuk memeriksa kesalahan sintaks dan untuk mengonfirmasi bahwa konfigurasi Anda benar, jalankan:<pre>terraform validate </pre> | AWS DevOps, DevOps insinyur | 
| Validasi konfigurasi Terraform. | Untuk membuat rencana eksekusi Terraform dan melihat pratinjau penerapan, jalankan:<pre>terraform plan -var-file terraform.tfvars</pre> | AWS DevOps, DevOps insinyur | 
| Terapkan modul Terraform. | Untuk menerapkan sumber daya FSx Lustre, jalankan:<pre>terraform apply -var-file terraform.tfvars</pre> | AWS DevOps, DevOps insinyur | 

### Bersihkan AWS sumber daya
<a name="clean-up-aws-resources"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Hapus AWS sumber daya. | Setelah Anda selesai menggunakan lingkungan FSx for Lustre, Anda dapat menghapus AWS sumber daya yang digunakan oleh Terraform untuk menghindari biaya yang tidak perlu. Modul Terraform yang disediakan dalam repositori kode mengotomatiskan pembersihan ini.[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps insinyur | 

## Pemecahan masalah
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-troubleshooting"></a>


| Isu | Solusi | 
| --- | --- | 
| FSx untuk Lustre mengembalikan kesalahan. |  FSx Untuk bantuan terkait masalah Lustre, lihat [Memecahkan Masalah FSx Amazon for Lustre di dokumentasi for](https://docs.aws.amazon.com/fsx/latest/LustreGuide/troubleshooting.html) Lustre. FSx  | 

## Sumber daya terkait
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-resources"></a>
+ [Membangun Amazon FSx untuk Lustre dengan menggunakan Terraform](https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/fsx_lustre_file_system) (Referensi AWS penyedia dalam dokumentasi Terraform)
+ [Memulai Amazon FSx untuk Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/getting-started.html) (FSx untuk dokumentasi Lustre)
+ [AWS posting blog tentang Amazon FSx untuk Lustre](https://aws.amazon.com/blogs/storage/tag/amazon-fsx-for-lustre/)

# Siapkan dasbor pemantauan Grafana untuk AWS ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta dan William Lu, Amazon Web Services*

## Ringkasan
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ParallelCluster membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm. Meskipun AWS ParallelCluster terintegrasi dengan Amazon CloudWatch untuk pencatatan dan metrik, AWS tidak menyediakan dasbor pemantauan untuk beban kerja.

[Dasbor Grafana untuk AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) adalah dasbor pemantauan untuk AWS. ParallelCluster Ini memberikan wawasan penjadwal pekerjaan dan metrik pemantauan terperinci di tingkat sistem operasi (OS). Untuk informasi selengkapnya tentang dasbor yang disertakan dalam solusi ini, lihat [Contoh Dasbor di repositori](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards). GitHub Metrik ini membantu Anda lebih memahami beban kerja HPC dan kinerjanya. Namun, kode dasbor tidak diperbarui untuk AWS versi terbaru ParallelCluster atau paket open source yang digunakan dalam solusi. Pola ini meningkatkan solusi untuk memberikan manfaat berikut:
+ Mendukung AWS ParallelCluster v3
+ Menggunakan versi terbaru dari paket open source, termasuk Prometheus, Grafana, Prometheus Slurm Exporter, dan NVIDIA DCGM-Exporter
+ Meningkatkan jumlah inti CPU dan GPUs yang digunakan pekerjaan Slurm
+ Menambahkan dasbor pemantauan pekerjaan
+ Meningkatkan dasbor pemantauan node GPU untuk node dengan 4 atau 8 unit pemrosesan grafis () GPUs

Versi solusi yang disempurnakan ini telah diimplementasikan dan diverifikasi di lingkungan produksi HPC pelanggan AWS.

## Prasyarat dan batasan
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Prasyarat**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), diinstal dan dikonfigurasi.
+ [Konfigurasi jaringan](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) yang didukung untuk AWS ParallelCluster. Pola ini menggunakan [AWS ParallelCluster menggunakan dua konfigurasi subnet](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets), yang memerlukan subnet publik, subnet pribadi, gateway internet, dan gateway NAT.
+ Semua node ParallelCluster kluster AWS harus memiliki akses internet. Ini diperlukan agar skrip instalasi dapat mengunduh perangkat lunak open source dan gambar Docker.
+ Sebuah [key pair](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) di Amazon Elastic Compute Cloud (Amazon EC2). Sumber daya yang memiliki key pair ini memiliki akses Secure Shell (SSH) ke head node.

**Batasan**
+ Pola ini dirancang untuk mendukung Ubuntu 20.04 LTS. Jika Anda menggunakan versi Ubuntu yang berbeda atau jika Anda menggunakan Amazon Linux atau CentOS, maka Anda perlu memodifikasi skrip yang disediakan dengan solusi ini. Modifikasi ini tidak termasuk dalam pola ini.

**Versi produk**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Pertimbangan penagihan dan biaya**
+ Solusi yang diterapkan dalam pola ini tidak tercakup oleh tingkat gratis. Biaya berlaku untuk Amazon EC2, Amazon FSx untuk Lustre, gateway NAT di Amazon VPC, dan Amazon Route 53.

## Arsitektur
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Arsitektur target**

Diagram berikut menunjukkan bagaimana pengguna dapat mengakses dasbor pemantauan untuk AWS ParallelCluster di node kepala. Node kepala menjalankan NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter, dan NGINX Open Source. Node komputasi menjalankan Prometheus Node Exporter, dan mereka juga menjalankan NVIDIA DCGM-Exporter jika node berisi. GPUs Node kepala mengambil informasi dari node komputasi dan menampilkan data tersebut di dasbor Grafana.

![\[Mengakses dasbor pemantauan untuk AWS ParallelCluster di node kepala.\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


Dalam kebanyakan kasus, node kepala tidak banyak dimuat karena penjadwal pekerjaan tidak memerlukan sejumlah besar CPU atau memori. Pengguna mengakses dasbor pada node kepala dengan menggunakan SSL pada port 443.

Semua pemirsa resmi dapat melihat dasbor pemantauan secara anonim. Hanya administrator Grafana yang dapat memodifikasi dasbor. Anda mengonfigurasi kata sandi untuk administrator Grafana dalam file. `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml`

## Alat
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**Layanan AWS**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) adalah protokol tampilan jarak jauh berkinerja tinggi yang membantu Anda mengirimkan desktop jarak jauh dan streaming aplikasi dari cloud atau pusat data apa pun ke perangkat apa pun, dalam berbagai kondisi jaringan.
+ [AWS ParallelCluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm.
+ [Amazon Simple Storage Service (Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) membantu Anda meluncurkan sumber daya AWS ke jaringan virtual yang telah Anda tentukan.

**Alat-alat lainnya**
+ [Docker](https://www.docker.com/) adalah seperangkat produk platform as a service (PaaS) yang menggunakan virtualisasi pada tingkat sistem operasi untuk mengirimkan perangkat lunak dalam wadah.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) adalah perangkat lunak open source yang membantu Anda menanyakan, memvisualisasikan, memperingatkan, dan menjelajahi metrik, log, dan jejak.
+ [NGINX Open Source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) adalah server web open source dan reverse proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) adalah seperangkat alat untuk mengelola dan memantau unit pemrosesan grafis pusat data NVIDIA (GPUs) di lingkungan cluster. Dalam pola ini, Anda menggunakan [DCGM-Exporter, yang membantu Anda mengekspor metrik](https://github.com/NVIDIA/dcgm-exporter) GPU dari Prometheus.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *adalah toolkit pemantauan sistem open source yang mengumpulkan dan menyimpan metriknya sebagai data deret waktu dengan pasangan nilai kunci terkait, yang disebut label.* [Dalam pola ini, Anda juga menggunakan [Prometheus Slurm Exporter untuk mengumpulkan dan mengekspor metrik, dan Anda menggunakan Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) Node Exporter untuk mengekspor metrik dari node komputasi.](https://github.com/prometheus/node_exporter)
+ [Ubuntu](https://help.ubuntu.com/) adalah sistem operasi berbasis Linux open source yang dirancang untuk server perusahaan, desktop, lingkungan cloud, dan IoT.

**Repositori kode**

Kode untuk pola ini tersedia di GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)repositori.

## Epik
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Buat sumber daya yang dibutuhkan
<a name="create-the-required-resources"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Buat ember S3. | Buat bucket Amazon S3. Anda menggunakan bucket ini untuk menyimpan skrip konfigurasi. Untuk petunjuknya, lihat [Membuat bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) di dokumentasi Amazon S3. | AWS Umum | 
| Kloning repositori. | Kloning GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)repo dengan menjalankan perintah berikut.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps insinyur | 
| Buat kata sandi admin. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Skrip Shell Linux | 
| Salin file yang diperlukan ke dalam ember S3. | Salin skrip [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) dan [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)folder ke bucket S3 yang Anda buat. Untuk petunjuk, lihat [Mengunggah objek](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html) dalam dokumentasi Amazon S3. | AWS Umum | 
| Konfigurasikan grup keamanan tambahan untuk node kepala. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 
| Konfigurasikan kebijakan IAM untuk node kepala. | Buat kebijakan berbasis identitas untuk node kepala. Kebijakan ini memungkinkan node untuk mengambil data metrik dari Amazon CloudWatch. GitHub Repo berisi contoh [kebijakan](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json). Untuk petunjuk, lihat [Membuat kebijakan IAM dalam dokumentasi](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) AWS Identity and Access Management (IAM). | Administrator AWS | 
| Konfigurasikan kebijakan IAM untuk node komputasi. | Buat kebijakan berbasis identitas untuk node komputasi. Kebijakan ini memungkinkan node untuk membuat tag yang berisi ID pekerjaan dan pemilik pekerjaan. GitHub Repo berisi contoh [kebijakan](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Untuk petunjuk, lihat [Membuat kebijakan IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) dalam dokumentasi IAM.Jika Anda menggunakan file contoh yang disediakan, ganti nilai berikut:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 

### Buat cluster
<a name="create-the-cluster"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Ubah file template cluster yang disediakan. | Buat ParallelCluster klaster AWS. Gunakan file template CloudFormation AWS [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) yang disediakan sebagai titik awal untuk membuat cluster. Ganti nilai-nilai berikut dalam template yang disediakan:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 
| Buat cluster. | Di AWS ParallelCluster CLI, masukkan perintah berikut. Ini menyebarkan CloudFormation template dan membuat cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster create-cluster di dokumentasi AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html). ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | Administrator AWS | 
| Pantau pembuatan cluster. | Masukkan perintah berikut untuk memantau pembuatan cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster describe-cluster dalam dokumentasi AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html). ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | Administrator AWS | 

### Menggunakan dasbor Grafana
<a name="using-the-grafana-dashboards"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Akses ke portal Grafana. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 

### Bersihkan solusi untuk berhenti mengeluarkan biaya terkait
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Hapus klaster . | Masukkan perintah berikut untuk menghapus cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster delete-cluster di dokumentasi](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) AWS. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | Administrator AWS | 
| Hapus kebijakan IAM. | Hapus kebijakan yang Anda buat untuk node kepala dan node komputasi. Untuk informasi selengkapnya tentang menghapus kebijakan, lihat [Menghapus kebijakan IAM di dokumentasi](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html) IAM. | Administrator AWS | 
| Hapus grup dan aturan keamanan. | Hapus grup keamanan yang Anda buat untuk node kepala. Untuk informasi selengkapnya, lihat [Menghapus aturan grup keamanan](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) dan [Menghapus grup keamanan](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) di dokumentasi Amazon VPC. | Administrator AWS | 
| Hapus bucket S3. | Hapus bucket S3 yang Anda buat untuk menyimpan skrip konfigurasi. Untuk informasi selengkapnya, lihat [Menghapus bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) di dokumentasi Amazon S3. | AWS Umum | 

## Pemecahan masalah
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Isu | Solusi | 
| --- | --- | 
| Node kepala tidak dapat diakses di browser. | Periksa grup keamanan dan konfirmasikan bahwa port masuk 443 terbuka. | 
| Grafana tidak terbuka. | Pada node kepala, periksa log kontainer untuk`docker logs Grafana`. | 
| Beberapa metrik tidak memiliki data. | Pada node kepala, periksa log kontainer dari semua kontainer. | 

## Sumber daya terkait
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**Dokumentasi AWS**
+ [Kebijakan IAM untuk Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Sumber daya AWS lainnya**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Dasbor pemantauan untuk AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (postingan blog AWS)

**Sumber daya lainnya**
+ [Sistem pemantauan Prometheus](https://prometheus.io/)
+ [Grafana](https://grafana.com/)

# Lebih banyak pola
<a name="highperformancecomputing-more-patterns-pattern-list"></a>

**Topics**
+ [Menerapkan diagnostik Kubernetes yang didukung AI dan pemecahan masalah dengan integrasi K8SGPT dan Amazon Bedrock](implement-ai-powered-kubernetes-diagnostics-and-troubleshooting-with-k8sgpt-and-amazon-bedrock-integration.md)