

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Datenverarbeitung in Hochleistung
<a name="highperformancecomputing-pattern-list"></a>

**Topics**
+ [Stellen Sie mithilfe von Terraform und DRA ein Lustre-Dateisystem für die Hochleistungsdatenverarbeitung bereit](deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.md)
+ [Richten Sie ein Grafana-Überwachungs-Dashboard für AWS ein ParallelCluster](set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.md)
+ [Mehr Muster](highperformancecomputing-more-patterns-pattern-list.md)

# Stellen Sie mithilfe von Terraform und DRA ein Lustre-Dateisystem für die Hochleistungsdatenverarbeitung bereit
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra"></a>

*Arun Bagal und Ishwar Chauthaiwale, Amazon Web Services*

## Zusammenfassung
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-summary"></a>

Dieses Muster stellt automatisch ein Lustre-Dateisystem bereit AWS und integriert es mit Amazon Elastic Compute Cloud (Amazon EC2) und Amazon Simple Storage Service (Amazon S3).

Mit dieser Lösung können Sie schnell eine High Performance Computing (HPC) -Umgebung mit integriertem Speicher, Rechenressourcen und Amazon S3 S3-Datenzugriff einrichten. Es kombiniert die Speicherfunktionen von Lustre mit den flexiblen Rechenoptionen von Amazon EC2 und dem skalierbaren Objektspeicher in Amazon S3, sodass Sie datenintensive Workloads in den Bereichen maschinelles Lernen, HPC und Big-Data-Analysen bewältigen können.

Das Muster verwendet ein HashiCorp Terraform-Modul und Amazon FSx for Lustre, um den folgenden Prozess zu optimieren:
+ Bereitstellung eines Lustre-Dateisystems
+ Einrichtung einer Data Repository Association (DRA) zwischen FSx for Lustre und einem S3-Bucket, um das Lustre-Dateisystem mit Amazon S3 S3-Objekten zu verknüpfen
+ Eine Instanz erstellen EC2 
+ Mounten des Lustre-Dateisystems mit dem Amazon S3-verknüpften DRA auf der Instance EC2 

Zu den Vorteilen dieser Lösung gehören:
+ Modularer Aufbau. Sie können die einzelnen Komponenten dieser Lösung einfach warten und aktualisieren.
+ Skalierbarkeit. Sie können schnell konsistente Umgebungen in unseren AWS-Konten Regionen bereitstellen.
+ Flexibilität. Sie können die Bereitstellung an Ihre spezifischen Bedürfnisse anpassen.
+ Bewährte Verfahren. Dieses Muster verwendet vorkonfigurierte Module, die AWS bewährten Methoden folgen.

Weitere Informationen zu Lustre-Dateisystemen finden Sie auf der [Lustre-Website](https://www.lustre.org/).

## Voraussetzungen und Einschränkungen
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-prereqs"></a>

**Voraussetzungen**
+ Ein aktiver AWS-Konto
+ Eine IAM-Richtlinie AWS Identity and Access Management (Least Privilege) (siehe [Anweisungen](https://aws.amazon.com/blogs/security/techniques-for-writing-least-privilege-iam-policies/))

**Einschränkungen**

FSx for Lustre beschränkt das Lustre-Dateisystem auf eine einzige Availability Zone, was problematisch sein kann, wenn Sie hohe Verfügbarkeitsanforderungen haben. Wenn die Availability Zone, die das Dateisystem enthält, ausfällt, ist der Zugriff auf das Dateisystem bis zur Wiederherstellung verloren. Um eine hohe Verfügbarkeit zu erreichen, können Sie DRA verwenden, um das Lustre-Dateisystem mit Amazon S3 zu verknüpfen und Daten zwischen Availability Zones zu übertragen.

**Produktversionen**
+ [Terraform Version 1.9.3 oder höher](https://developer.hashicorp.com/terraform/install?product_intent=terraform)
+ [HashiCorp AWS-Provider-Version 4.0.0 oder höher](https://registry.terraform.io/providers/hashicorp/aws/latest)

## Architektur
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-architecture"></a>

Das folgende Diagramm zeigt die Architektur für FSx für Lustre und die ergänzende Architektur AWS-Services in. AWS Cloud

![\[FSx für die Lustre-Bereitstellung mit AWS KMS, Amazon EC2, Amazon CloudWatch Logs und Amazon S3.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/images/pattern-img/51d38589-e752-42cd-9f46-59c3c8d0bfd3/images/c1c21952-fd6f-4b1d-9bf8-09b2f4f4459f.png)


Die Architektur umfasst Folgendes:
+ Ein S3-Bucket wird als langlebiger, skalierbarer und kostengünstiger Speicherort für Daten verwendet. Die Integration zwischen FSx for Lustre und Amazon S3 bietet ein leistungsstarkes Dateisystem, das nahtlos mit Amazon S3 verknüpft ist.
+ FSx for Lustre betreibt und verwaltet das Lustre-Dateisystem.
+ Amazon CloudWatch Logs sammelt und überwacht Protokolldaten aus dem Dateisystem. Diese Protokolle bieten Einblicke in die Leistung, den Zustand und die Aktivität Ihres Lustre-Dateisystems.
+ Amazon EC2 wird verwendet, um mithilfe des Open-Source-Lustre-Clients auf Lustre-Dateisysteme zuzugreifen. EC2 Instanzen können auf Dateisysteme von anderen Availability Zones innerhalb derselben Virtual Private Cloud (VPC) zugreifen. Die Netzwerkkonfiguration ermöglicht den Zugriff über Subnetze innerhalb der VPC. Nachdem das Lustre-Dateisystem auf der Instanz bereitgestellt wurde, können Sie mit den Dateien und Verzeichnissen arbeiten, als würden Sie ein lokales Dateisystem verwenden.
+ AWS Key Management Service (AWS KMS) erhöht die Sicherheit des Dateisystems, indem Daten im Ruhezustand verschlüsselt werden.

**Automatisierung und Skalierung**

Terraform erleichtert die Bereitstellung, Verwaltung und Skalierung Ihrer Lustre-Dateisysteme in mehreren Umgebungen. FSx Bei Lustre hat ein einzelnes Dateisystem Größenbeschränkungen, sodass Sie möglicherweise horizontal skalieren müssen, indem Sie mehrere Dateisysteme erstellen. Sie können Terraform verwenden, um je nach Ihren Workload-Anforderungen mehrere Lustre-Dateisysteme bereitzustellen.

## Tools
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-tools"></a>

**AWS-Services**
+ [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) hilft Ihnen dabei, die Protokolle all Ihrer Systeme und Anwendungen zu zentralisieren, AWS-Services sodass Sie sie überwachen und sicher archivieren können.
+ [Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html) bietet skalierbare Rechenkapazität in der AWS Cloud. Sie können so viele virtuelle Server wie nötig nutzen und sie schnell nach oben oder unten skalieren.
+ [Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html) macht es einfach und kostengünstig, ein leistungsstarkes Lustre-Dateisystem zu starten, auszuführen und zu skalieren.
+ [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) hilft Ihnen dabei, kryptografische Schlüssel zu erstellen und zu kontrollieren, um Ihre Daten zu schützen.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.

**Code-Repository**

Der Code für dieses Muster ist im Repository GitHub [Provision FSx for Lustre Filesystem using Terraform](https://github.com/aws-samples/provision-fsx-lustre-with-terraform) verfügbar.

## Best Practices
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-best-practices"></a>
+ Die folgenden Variablen definieren das Lustre-Dateisystem. Stellen Sie sicher, dass Sie diese entsprechend Ihrer Umgebung korrekt konfigurieren, wie im Abschnitt [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) beschrieben.
  + `storage_capacity`— Die Speicherkapazität des Lustre-Dateisystems, in. GiBs Die Mindest- und Standardeinstellung ist 1200 GiB.
  + `deployment_type`— Der Bereitstellungstyp für das Lustre-Dateisystem. Eine Erläuterung der beiden Optionen `PERSISTENT_1` und `PERSISTENT_2` (Standard) finden Sie in der Dokumentation [FSx zu Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/using-fsx-lustre.html#persistent-file-system).
  + `per_unit_storage_throughput`— Der Lese- und Schreibdurchsatz in MBs pro Sekunde pro TiB.  
  + `subnet_id`— Die ID des privaten Subnetzes, in dem Sie Lustre bereitstellen FSx möchten.
  + `vpc_id`— Die ID Ihrer virtuellen privaten Cloud, AWS in der Sie Lustre bereitstellen FSx möchten.
  + `data_repository_path`— Der Pfad zum S3-Bucket, der mit dem Lustre-Dateisystem verknüpft wird.
  + `iam_instance_profile`— Das IAM-Instance-Profil, das zum Starten der EC2 Instance verwendet werden soll.
  + `kms_key_id`— Der Amazon-Ressourcenname (ARN) des AWS KMS Schlüssels, der für die Datenverschlüsselung verwendet wird.
+ Stellen Sie mithilfe der `vpc_id` Variablen und den korrekten Netzwerkzugriff und die korrekte Platzierung innerhalb der `security_group` VPC sicher.
+ Führen Sie den `terraform plan` Befehl wie im Abschnitt [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) beschrieben aus, um eine Vorschau der Änderungen anzuzeigen und sie zu überprüfen, bevor Sie sie übernehmen. Dies hilft dabei catch potenzielle Probleme zu erkennen und stellt sicher, dass Sie wissen, was bereitgestellt wird.
+ Verwenden Sie den `terraform validate` Befehl, wie im Abschnitt [Epics](#deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics) beschrieben, um nach Syntaxfehlern zu suchen und um zu bestätigen, dass Ihre Konfiguration korrekt ist.

## Epen
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-epics"></a>

### So richten Sie Ihre Umgebung ein
<a name="set-up-your-environment"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Installieren Sie Terraform. | [Folgen Sie den Anweisungen in der Terraform-Dokumentation, um Terraform auf Ihrem lokalen Computer zu installieren.](https://developer.hashicorp.com/terraform/tutorials/aws-get-started/install-cli) | AWS DevOps, DevOps Ingenieur | 
| Richten Sie AWS Anmeldeinformationen ein. | Folgen Sie den Anweisungen in der [AWS Dokumentation](https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-files.html), um das Profil AWS Command Line Interface (AWS CLI) für das Konto einzurichten. | AWS DevOps, DevOps Ingenieur | 
| Klonen Sie das GitHub Repository. | Um das GitHub Repository zu klonen, führen Sie den folgenden Befehl aus:<pre>git clone https://github.com/aws-samples/provision-fsx-lustre-with-terraform.git</pre> | AWS DevOps, DevOps Ingenieur | 

### Konfiguration und Bereitstellung FSx für Lustre
<a name="configure-and-deploy-fsxlustre"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Aktualisieren Sie die Bereitstellungskonfiguration. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps Ingenieur | 
| Initialisieren Sie die Terraform-Umgebung. | Um Ihre Umgebung für die Ausführung des `fsx_deployment` Terraform-Moduls zu initialisieren, führen Sie Folgendes aus:<pre>terraform init</pre> | AWS DevOps, DevOps Ingenieur | 
| Validieren Sie die Terraform-Syntax. | Führen Sie Folgendes aus, um nach Syntaxfehlern zu suchen und zu bestätigen, dass Ihre Konfiguration korrekt ist:<pre>terraform validate </pre> | AWS DevOps, DevOps Ingenieur | 
| Validieren Sie die Terraform-Konfiguration. | Führen Sie Folgendes aus, um einen Terraform-Ausführungsplan zu erstellen und eine Vorschau der Bereitstellung anzuzeigen:<pre>terraform plan -var-file terraform.tfvars</pre> | AWS DevOps, DevOps Ingenieur | 
| Stellen Sie das Terraform-Modul bereit. | Führen Sie Folgendes aus, um die FSx for Lustre-Ressourcen bereitzustellen:<pre>terraform apply -var-file terraform.tfvars</pre> | AWS DevOps, DevOps Ingenieur | 

### AWS Ressourcen bereinigen
<a name="clean-up-aws-resources"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
|  AWS Ressourcen entfernen. | Nachdem Sie Ihre FSx for Lustre-Umgebung nicht mehr genutzt haben, können Sie die von Terraform bereitgestellten AWS Ressourcen entfernen, um unnötige Kosten zu vermeiden. Das im Code-Repository bereitgestellte Terraform-Modul automatisiert diese Bereinigung.[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra.html) | AWS DevOps, DevOps Ingenieur | 

## Fehlerbehebung
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-troubleshooting"></a>


| Problem | Lösung | 
| --- | --- | 
| FSx für Lustre gibt Fehler zurück. | Hilfe bei Problemen mit FSx Lustre finden Sie unter [Fehlerbehebung bei Amazon FSx for Lustre in der FSx for Lustre-Dokumentation](https://docs.aws.amazon.com/fsx/latest/LustreGuide/troubleshooting.html). | 

## Zugehörige Ressourcen
<a name="deploy-lustre-file-system-for-high-performance-data-processing-with-terraform-dra-resources"></a>
+ [Amazon FSx for Lustre mithilfe von Terraform erstellen (AWS Anbieterreferenz in der Terraform-Dokumentation](https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/fsx_lustre_file_system))
+ [Erste Schritte mit Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/getting-started.html) (FSx für Lustre-Dokumentation)
+ [AWS Blogbeiträge über Amazon FSx for Lustre](https://aws.amazon.com/blogs/storage/tag/amazon-fsx-for-lustre/)

# Richten Sie ein Grafana-Überwachungs-Dashboard für AWS ein ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta und William Lu, Amazon Web Services*

## Zusammenfassung
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ParallelCluster unterstützt Sie bei der Bereitstellung und Verwaltung von HPC-Clustern (High Performance Computing). Es unterstützt die Open-Source-Job-Scheduler AWS Batch und Slurm. Obwohl AWS CloudWatch für die Protokollierung und Metriken in Amazon integriert ParallelCluster ist, bietet es kein Monitoring-Dashboard für die Arbeitslast.

Das [Grafana-Dashboard für AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) ist ein Überwachungs-Dashboard für AWS ParallelCluster. Es bietet Einblicke in den Job Scheduler und detaillierte Überwachungsmetriken auf Betriebssystemebene (OS). Weitere Informationen zu den in dieser Lösung enthaltenen Dashboards finden Sie unter [Beispiel-Dashboards im Repository](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards). GitHub Diese Metriken helfen Ihnen dabei, den HPC-Workload und seine Leistung besser zu verstehen. Der Dashboard-Code wird jedoch nicht für die neuesten Versionen von AWS ParallelCluster oder die Open-Source-Pakete aktualisiert, die in der Lösung verwendet werden. Dieses Muster verbessert die Lösung und bietet die folgenden Vorteile:
+ Unterstützt AWS ParallelCluster v3
+ Verwendet die neueste Version von Open-Source-Paketen, darunter Prometheus, Grafana, Prometheus Slurm Exporter und NVIDIA DCGM-Exporter
+ Erhöht die Anzahl der CPU-Kerne und die Anzahl der CPU-Kerne, die von den Slurm-Jobs verwendet werden GPUs 
+ Fügt ein Dashboard zur Jobüberwachung hinzu
+ Verbessert das Dashboard zur GPU-Knotenüberwachung für Knoten mit 4 oder 8 Grafikprozessoren (GPUs)

Diese Version der erweiterten Lösung wurde in der HPC-Produktionsumgebung eines AWS-Kunden implementiert und verifiziert.

## Voraussetzungen und Einschränkungen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Voraussetzungen**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), installiert und konfiguriert.
+ Eine unterstützte [Netzwerkkonfiguration](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) für AWS ParallelCluster. Dieses Muster verwendet die [AWS-Konfiguration ParallelCluster mit zwei Subnetzen](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets), was ein öffentliches Subnetz, ein privates Subnetz, ein Internet-Gateway und ein NAT-Gateway erfordert.
+ Alle ParallelCluster AWS-Clusterknoten müssen über Internetzugang verfügen. Dies ist erforderlich, damit die Installationsskripte die Open-Source-Software und die Docker-Images herunterladen können.
+ Ein [key pair](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) in Amazon Elastic Compute Cloud (Amazon EC2). Ressourcen, die über dieses key pair verfügen, haben Secure Shell (SSH) -Zugriff auf den Hauptknoten.

**Einschränkungen**
+ Dieses Muster wurde entwickelt, um Ubuntu 20.04 LTS zu unterstützen. Wenn Sie eine andere Version von Ubuntu oder Amazon Linux oder CentOS verwenden, müssen Sie die mit dieser Lösung bereitgestellten Skripts ändern. Diese Änderungen sind in diesem Muster nicht enthalten.

**Produktversionen**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Überlegungen zur Abrechnung und zu den Kosten**
+ Die nach diesem Muster bereitgestellte Lösung fällt nicht unter das kostenlose Kontingent. Für Amazon EC2, Amazon FSx for Lustre, das NAT-Gateway in Amazon VPC und Amazon Route 53 fallen Gebühren an.

## Architektur
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Zielarchitektur**

Das folgende Diagramm zeigt, wie ein Benutzer auf das Monitoring-Dashboard für AWS ParallelCluster auf dem Hauptknoten zugreifen kann. Auf dem Hauptknoten werden NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter und NGINX Open Source ausgeführt. Auf den Rechenknoten wird der Prometheus Node Exporter ausgeführt, und sie führen auch den NVIDIA DCGM-Exporter aus, wenn der Knoten enthält. GPUs Der Hauptknoten ruft Informationen von den Rechenknoten ab und zeigt diese Daten im Grafana-Dashboard an.

![\[Zugriff auf das Überwachungs-Dashboard für AWS ParallelCluster auf dem Hauptknoten.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


In den meisten Fällen ist der Hauptknoten nicht stark ausgelastet, da der Job-Scheduler keine nennenswerte Menge an CPU oder Arbeitsspeicher benötigt. Benutzer greifen mithilfe von SSL auf Port 443 auf das Dashboard auf dem Hauptknoten zu.

Alle autorisierten Zuschauer können die Monitoring-Dashboards anonym einsehen. Nur der Grafana-Administrator kann Dashboards ändern. Sie konfigurieren in der `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml` Datei ein Passwort für den Grafana-Administrator.

## Tools
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**AWS-Services**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) ist ein leistungsstarkes Remote-Display-Protokoll, mit dem Sie Remote-Desktops und Anwendungsstreaming von jeder Cloud oder jedem Rechenzentrum auf jedes Gerät unter unterschiedlichen Netzwerkbedingungen bereitstellen können.
+ [AWS ParallelCluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) unterstützt Sie bei der Bereitstellung und Verwaltung von HPC-Clustern (High Performance Computing). Es unterstützt die Open-Source-Job-Scheduler AWS Batch und Slurm.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) hilft Ihnen dabei, AWS-Ressourcen in einem von Ihnen definierten virtuellen Netzwerk zu starten.

**Andere Tools**
+ [Docker](https://www.docker.com/) ist eine Reihe von Platform-as-a-Service (PaaS) -Produkten, die Virtualisierung auf Betriebssystemebene nutzen, um Software in Containern bereitzustellen.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) ist eine Open-Source-Software, mit der Sie Metriken, Protokolle und Traces abfragen, visualisieren, darauf hinweisen und untersuchen können.
+ [NGINX Open Source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) ist ein Open-Source-Webserver und Reverse-Proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) ist eine Suite von Tools zur Verwaltung und Überwachung von NVIDIA-Grafikprozessoren (GPUs) für Rechenzentren in Clusterumgebungen. In diesem Muster verwenden Sie den [DCGM-Exporter, mit dem Sie GPU-Metriken](https://github.com/NVIDIA/dcgm-exporter) aus Prometheus exportieren können.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *ist ein Open-Source-Toolkit zur Systemüberwachung, das seine Metriken als Zeitreihendaten mit zugehörigen Schlüssel-Wert-Paaren sammelt und speichert, die als Labels bezeichnet werden.* In diesem Muster verwenden Sie auch [Prometheus Slurm Exporter](https://github.com/vpenso/prometheus-slurm-exporter), um Metriken zu sammeln und zu exportieren, und Sie verwenden [Prometheus Node Exporter, um Metriken aus den Rechenknoten](https://github.com/prometheus/node_exporter) zu exportieren.
+ [Ubuntu](https://help.ubuntu.com/) ist ein Linux-basiertes Open-Source-Betriebssystem, das für Unternehmensserver, Desktops, Cloud-Umgebungen und IoT entwickelt wurde.

**Code-Repository**

Der Code für dieses Muster ist im GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)Repository verfügbar.

## Epen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Erstellen Sie die erforderlichen Ressourcen
<a name="create-the-required-resources"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Erstellen Sie einen S3-Bucket. | Erstellen Sie einen Amazon-S3-Bucket. Sie verwenden diesen Bucket, um die Konfigurationsskripten zu speichern. Anweisungen finden Sie in der Amazon S3 S3-Dokumentation unter [Bucket erstellen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html). | Allgemeines AWS | 
| Klonen Sie das Repository | Klonen Sie das GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)Repo, indem Sie den folgenden Befehl ausführen.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps Ingenieur | 
| Erstellen Sie ein Admin-Passwort. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Linux-Shell-Skripting | 
| Kopieren Sie die erforderlichen Dateien in den S3-Bucket. | Kopieren Sie das Skript [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) und den [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)Ordner in den S3-Bucket, den Sie erstellt haben. Anweisungen finden Sie in der Amazon S3 S3-Dokumentation unter [Hochladen von Objekten](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html). | Allgemeines AWS | 
| Konfigurieren Sie eine zusätzliche Sicherheitsgruppe für den Hauptknoten. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 
| Konfigurieren Sie eine IAM-Richtlinie für den Hauptknoten. | Erstellen Sie eine identitätsbasierte Richtlinie für den Hauptknoten. Diese Richtlinie ermöglicht es dem Knoten, Metrikdaten von Amazon abzurufen CloudWatch. Das GitHub Repo enthält eine [Beispielrichtlinie](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json). Anweisungen finden Sie unter [Erstellen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) in der Dokumentation zu AWS Identity and Access Management (IAM). | AWS-Administrator | 
| Konfigurieren Sie eine IAM-Richtlinie für die Rechenknoten. | Erstellen Sie eine identitätsbasierte Richtlinie für die Rechenknoten. Diese Richtlinie ermöglicht es dem Knoten, die Tags zu erstellen, die die Job-ID und den Job-Besitzer enthalten. Das GitHub Repo enthält eine [Beispielrichtlinie](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Anweisungen finden Sie in der [IAM-Dokumentation unter Erstellen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).Wenn Sie die bereitgestellte Beispieldatei verwenden, ersetzen Sie die folgenden Werte:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 

### Den Cluster erstellen
<a name="create-the-cluster"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Ändern Sie die bereitgestellte Cluster-Vorlagendatei. | Erstellen Sie den ParallelCluster AWS-Cluster. Verwenden Sie die bereitgestellte CloudFormation AWS-Vorlagendatei [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) als Ausgangspunkt für die Erstellung des Clusters. Ersetzen Sie die folgenden Werte in der bereitgestellten Vorlage:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 
| Erstellen Sie den -Cluster. | Geben Sie in der ParallelCluster AWS-CLI den folgenden Befehl ein. Dadurch wird die CloudFormation Vorlage bereitgestellt und der Cluster erstellt. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster create-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | AWS-Administrator | 
| Überwachen Sie die Cluster-Erstellung. | Geben Sie den folgenden Befehl ein, um die Clustererstellung zu überwachen. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster describe-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | AWS-Administrator | 

### Verwendung der Grafana-Dashboards
<a name="using-the-grafana-dashboards"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Zugang zum Grafana-Portal. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 

### Bereinigen Sie die Lösung, um die damit verbundenen Kosten zu vermeiden
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Löschen Sie den Cluster. | Geben Sie den folgenden Befehl ein, um den Cluster zu löschen. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster delete-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | AWS-Administrator | 
| Löschen Sie die IAM-Richtlinien. | Löschen Sie die Richtlinien, die Sie für den Hauptknoten und den Rechenknoten erstellt haben. Weitere Informationen zum Löschen von Richtlinien finden Sie unter [Löschen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html) in der IAM-Dokumentation. | AWS-Administrator | 
| Löschen Sie die Sicherheitsgruppe und die Sicherheitsregel. | Löschen Sie die Sicherheitsgruppe, die Sie für den Hauptknoten erstellt haben. Weitere Informationen finden Sie unter [Löschen von Sicherheitsgruppenregeln](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) und [Löschen einer Sicherheitsgruppe](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) in der Amazon VPC-Dokumentation. | AWS-Administrator | 
| Löschen Sie den S3-Bucket. | Löschen Sie den S3-Bucket, den Sie zum Speichern der Konfigurationsskripten erstellt haben. Weitere Informationen finden Sie unter [Löschen eines Buckets](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) in der Amazon S3 S3-Dokumentation. | Allgemeines AWS | 

## Fehlerbehebung
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Problem | Lösung | 
| --- | --- | 
| Auf den Hauptknoten kann im Browser nicht zugegriffen werden. | Überprüfen Sie die Sicherheitsgruppe und vergewissern Sie sich, dass der eingehende Port 443 geöffnet ist. | 
| Grafana öffnet nicht. | Suchen Sie auf dem Hauptknoten im Container-Log nach`docker logs Grafana`. | 
| Einige Metriken enthalten keine Daten. | Überprüfen Sie auf dem Hauptknoten die Container-Logs aller Container. | 

## Zugehörige Ressourcen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**AWS-Dokumentation**
+ [IAM-Richtlinien für Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Andere AWS-Ressourcen**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Überwachungs-Dashboard für AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (AWS-Blogbeitrag)

**Sonstige Ressourcen**
+ [Prometheus-Überwachungssystem](https://prometheus.io/)
+ [Grafana](https://grafana.com/)

# Mehr Muster
<a name="highperformancecomputing-more-patterns-pattern-list"></a>

**Topics**
+ [Implementieren Sie KI-gestützte Kubernetes-Diagnose und -Fehlerbehebung mit der Integration von K8SGPT und Amazon Bedrock](implement-ai-powered-kubernetes-diagnostics-and-troubleshooting-with-k8sgpt-and-amazon-bedrock-integration.md)