

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# CloudWatch Lösung: NVIDIA-GPU-Arbeitslast auf Amazon EC2
<a name="Solution-NVIDIA-GPU-On-EC2"></a>

Diese Lösung hilft Ihnen bei der Konfiguration der out-of-the-box Metrikerfassung mithilfe von CloudWatch Agenten für NVIDIA-GPU-Workloads, die auf EC2-Instances ausgeführt werden. Darüber hinaus hilft sie Ihnen bei der Einrichtung eines vorkonfigurierten CloudWatch Dashboards. Allgemeine Informationen zu allen CloudWatch Observability-Lösungen finden Sie unter. [CloudWatch Observability-Lösungen](Monitoring-Solutions.md) 

**Topics**
+ [Voraussetzungen](#Solution-NVIDIA-GPU-On-EC2-Requirements)
+ [Vorteile](#Solution-NVIDIA-GPU-On-EC2-Benefits)
+ [CloudWatch Agentenkonfiguration für diese Lösung](#Solution-NVIDIA-GPU-CloudWatch-Agent)
+ [Bereitstellung des Agenten für Ihre Lösung](#Solution-NVIDIA-GPU-Agent-Deploy)
+ [Erstellen des Dashboards für die NVIDIA-GPU-Lösung](#Solution-NVIDIA-GPU-Dashboard)

## Voraussetzungen
<a name="Solution-NVIDIA-GPU-On-EC2-Requirements"></a>

Diese Lösung ist für folgende Bedingungen relevant:
+ Computing: Amazon EC2
+ Unterstützt bis zu 500 GPUs auf allen EC2-Instances in einer bestimmten Instanz AWS-Region
+ Aktuelle Version des Agenten CloudWatch 
+ Der SSM-Agent ist auf der EC2-Instance installiert
+ Auf der EC2-Instance muss ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter [Installieren von NVIDIA-Treibern auf Linux-Instances](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html).

**Anmerkung**  
AWS Systems Manager (SSM-Agent) ist auf einigen [Amazon Machine Images (AMIs)](https://docs.aws.amazon.com/systems-manager/latest/userguide/ami-preinstalled-agent.html) vorinstalliert, die von vertrauenswürdigen Drittanbietern AWS bereitgestellt werden. Wenn der Agent nicht installiert ist, können Sie ihn manuell installieren, indem Sie das Verfahren für Ihren Betriebssystemtyp verwenden.  
[ Manuelle Installation und Deinstallation des SSM-Agenten auf EC2-Instances für Linux](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-linux.html)
[ Manuelle Installation und Deinstallation des SSM-Agenten auf EC2-Instances für macOS](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-macos.html)
[ Manuelle Installation und Deinstallation des SSM-Agenten auf EC2-Instances für Windows Server](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-windows.html)

## Vorteile
<a name="Solution-NVIDIA-GPU-On-EC2-Benefits"></a>

Die Lösung bietet NVIDIA-Überwachung und wertvolle Erkenntnisse für die folgenden Anwendungsfälle:
+ Analysieren Sie die GPU- und Speichernutzung im Hinblick auf Leistungsengpässe oder den Bedarf an zusätzlichen Ressourcen.
+ Überwachen Sie die Temperatur und den Stromverbrauch, um sicherzustellen, dass der GPUs Betrieb innerhalb der Sicherheitsgrenzen erfolgt.
+ Bewerten Sie die Encoder-Leistung für GPU-Video-Workloads.
+ Überprüfen Sie die PCIe Konnektivität für die erwartete Generation und Breite.
+ Überwachen Sie die GPU-Taktraten, um Probleme mit Skalierung und Drosselung zu erkennen.

Im Folgenden sind die Hauptvorteile der Lösung aufgeführt:
+ Automatisiert die Erfassung von Metriken für NVIDIA mithilfe der CloudWatch Agentenkonfiguration, wodurch die manuelle Instrumentierung entfällt.
+ Bietet ein vorkonfiguriertes, konsolidiertes CloudWatch Dashboard für NVIDIA-Metriken. Das Dashboard verarbeitet automatisch Metriken von neuen NVIDIA-EC2-Instances, die mit der Lösung konfiguriert wurden, auch wenn diese Metriken bei der ersten Erstellung des Dashboards noch nicht vorhanden waren.

Die nachfolgende Abbildung ist ein Beispiel eines Dashboards dieser Lösung.

![Beispiel-Dashboard für die NVIDIA-GPU-Lösung.](http://docs.aws.amazon.com/de_de/AmazonCloudWatch/latest/monitoring/images/NVIDIADashboard.png)


### Kosten
<a name="Solution-NVIDIA-GPU-On-EC2-Costs"></a>

Diese Lösung erstellt und nutzt Ressourcen in Ihrem Konto. Ihnen wird die Standardnutzung berechnet, einschließlich der folgenden Kosten:
+ Alle vom CloudWatch Agenten gesammelten Metriken werden als benutzerdefinierte Metriken berechnet. Die Zahl der von dieser Lösung zu erfassenden Metriken hängt von der Anzahl der EC2-Hosts ab.
  + Jeder für die Lösung konfigurierte EC2-Host veröffentlicht insgesamt 17 Metriken pro GPU.
+ Ein benutzerdefiniertes Dashboard.
+ API-Operationen, die vom CloudWatch Agenten zur Veröffentlichung der Metriken angefordert wurden. Bei der Standardkonfiguration für diese Lösung ruft der CloudWatch Agent die **PutMetricData**einmal pro Minute für jeden EC2-Host auf. Das bedeutet, dass die **PutMetricData**API innerhalb eines 30-Tage-Monats für jeden EC2-Host aufgerufen `30*24*60=43,200` wird.

Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter [ CloudWatch Amazon-Preise](https://aws.amazon.com/cloudwatch/pricing/).

Mithilfe des Preisrechners können Sie die ungefähren monatlichen Kosten für die Nutzung dieser Lösung abschätzen.

**Um den Preisrechner zur Schätzung Ihrer monatlichen Kosten für die Lösung zu verwenden**

1. Öffnen Sie den [ CloudWatch Amazon-Preisrechner](https://calculator.aws/#/createCalculator/CloudWatch).

1. Wählen Sie unter **Region auswählen** die Region aus, in der die Lösung bereitgestellt werden soll.

1. Geben Sie im Abschnitt **Metriken** für die **Anzahl der Metriken** den Wert **17 \* average number of GPUs per EC2 host \* number of EC2 instances configured for this solution** ein.

1. Geben Sie im **APIs**Abschnitt **Anzahl der API-Anfragen** den Wert ein**43200 \* number of EC2 instances configured for this solution**.

1. Standardmäßig führt der CloudWatch Agent für jeden EC2-Host eine **PutMetricData**Operation pro Minute durch.

1. Geben Sie im Abschnitt **Dashboards und Alarme** für **Anzahl der Dashboards** **1** ein.

1. Sie finden Ihre geschätzten monatlichen Kosten unten im Preisrechner.

## CloudWatch Agentenkonfiguration für diese Lösung
<a name="Solution-NVIDIA-GPU-CloudWatch-Agent"></a>

Der CloudWatch Agent ist eine Software, die kontinuierlich und autonom auf Ihren Servern und in containerisierten Umgebungen ausgeführt wird. Es sammelt Metriken, Logs und Traces aus Ihrer Infrastruktur und Ihren Anwendungen und sendet sie an CloudWatch X-Ray.

Weitere Informationen über den CloudWatch Agenten finden Sie unter[Erfassen Sie Metriken, Logs und Traces mithilfe des CloudWatch Agenten](Install-CloudWatch-Agent.md).

Die Agentenkonfiguration in dieser Lösung erfasst verschiedene Metriken, die Ihnen den Einstieg in die Überwachung und Beobachtung Ihrer NVIDIA-GPU erleichtern. Der CloudWatch Agent kann so konfiguriert werden, dass er standardmäßig mehr NVIDIA-GPU-Metriken sammelt, als das Dashboard anzeigt. Eine Liste aller NVIDIA-GPU-Metriken, die Sie erfassen können, finden Sie unter [Erfassen von NVIDIA GPU-Metriken](CloudWatch-Agent-NVIDIA-GPU.md).

### Agentenkonfiguration für diese Lösung
<a name="Solution-NVIDIA-GPU-Agent-Config"></a>

Die vom Agenten zu erfassenden Metriken werden in der Agentenkonfiguration definiert. Die Lösung bietet Agenten-Konfigurationen zum Erfassen der empfohlenen Metriken mit geeigneten Dimensionen für das Dashboard der Lösung.

Verwenden Sie die folgende CloudWatch Agentenkonfiguration auf EC2-Instances mit NVIDIA GPUs. Die Konfiguration wird als Parameter im Parameterspeicher von SSM gespeichert, wie weiter unten in beschrieben [Schritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store](#Solution-NVIDIA-GPU-Agent-Step2).

```
{
    "metrics": {
        "namespace": "CWAgent",
        "append_dimensions": {
            "InstanceId": "${aws:InstanceId}"
        },
        "metrics_collected": {
            "nvidia_gpu": {
                "measurement": [
                    "utilization_gpu",
                    "temperature_gpu",
                    "power_draw",
                    "utilization_memory",
                    "fan_speed",
                    "memory_total",
                    "memory_used",
                    "memory_free",
                    "pcie_link_gen_current",
                    "pcie_link_width_current",
                    "encoder_stats_session_count",
                    "encoder_stats_average_fps",
                    "encoder_stats_average_latency",
                    "clocks_current_graphics",
                    "clocks_current_sm",
                    "clocks_current_memory",
                    "clocks_current_video"
                ],
                "metrics_collection_interval": 60
            }
        }
    },
    "force_flush_interval": 60
}
```

## Bereitstellung des Agenten für Ihre Lösung
<a name="Solution-NVIDIA-GPU-Agent-Deploy"></a>

Je nach Anwendungsfall gibt es mehrere Ansätze für die Installation des CloudWatch Agenten. Wir empfehlen die Nutzung von Systems Manager für diese Lösung. Es bietet eine Konsolenerfahrung und erleichtert die Verwaltung einer Flotte verwalteter Server innerhalb eines einzigen AWS Kontos. Die Anweisungen in diesem Abschnitt verwenden Systems Manager und sind für den Fall vorgesehen, dass der CloudWatch Agent nicht mit vorhandenen Konfigurationen ausgeführt wird. Sie können überprüfen, ob der CloudWatch Agent ausgeführt wird, indem Sie die Schritte unter befolgen[Stellen Sie sicher, dass der CloudWatch Agent läuft](troubleshooting-CloudWatch-Agent.md#CloudWatch-Agent-troubleshooting-verify-running).

Wenn Sie den CloudWatch Agenten bereits auf den EC2-Hosts ausführen, auf denen der Workload bereitgestellt wird, und die Agentenkonfigurationen verwalten, können Sie die Anweisungen in diesem Abschnitt überspringen und Ihren bestehenden Bereitstellungsmechanismus verwenden, um die Konfiguration zu aktualisieren. Stellen Sie sicher, dass Sie die Agentenkonfiguration von NVDIA-GPU mit Ihrer vorhandenen Agentenkonfiguration zusammenführen und dann diese zusammengeführte Konfiguration bereitstellen. Wenn Sie Systems Manager verwenden, um die Konfiguration für den CloudWatch Agenten zu speichern und zu verwalten, können Sie die Konfiguration mit dem vorhandenen Parameterwert zusammenführen. Weitere Informationen finden Sie unter [ CloudWatch Agent-Konfigurationsdateien verwalten](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/create-store-cloudwatch-configurations.html).

**Anmerkung**  
Wenn Sie Systems Manager zur Bereitstellung der folgenden CloudWatch Agentenkonfigurationen verwenden, werden alle vorhandenen CloudWatch Agentenkonfigurationen auf Ihren EC2-Instances ersetzt oder überschrieben. Sie können diese Konfiguration an Ihre individuelle Umgebung oder Ihren jeweiligen Anwendungsfall anpassen. Die in der Konfiguration definierten Metriken sind die Mindestwerte, die für das Dashboard der Lösung erforderlich sind.

Der Bereitstellungsprozess umfasst die folgenden Schritte:
+ Schritt 1: Stellen Sie sicher, dass die EC2-Ziel-Instances über die erforderlichen IAM-Berechtigungen verfügen.
+ Schritt 2: Speichern Sie die empfohlene Agentenkonfigurationsdatei in Systems Manager Parameter Store.
+ Schritt 3: Installieren Sie den CloudWatch Agenten mithilfe eines Stacks auf einer oder mehreren EC2-Instances. CloudFormation 
+ Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist

### Schritt 1: Stellen Sie sicher, dass die EC2-Ziel-Instances über die erforderlichen IAM-Berechtigungen verfügen
<a name="Solution-NVIDIA-GPU-Agent-Step1"></a>

Sie müssen Systems Manager die Erlaubnis erteilen, den CloudWatch Agenten zu installieren und zu konfigurieren. Sie müssen dem CloudWatch Agenten auch die Erlaubnis erteilen, Telemetriedaten von Ihrer EC2-Instance an zu veröffentlichen. CloudWatch Stellen Sie sicher, dass der IAM-Rolle, die der Instance zugewiesen ist, die Amazon IAM-Richtlinien **CloudWatchAgentServerPolicy**und die **Amazon SSMManaged InstanceCore** IAM-Richtlinien angehängt sind.
+ Nachdem die Rolle erstellt wurde, weisen Sie Ihren EC2-Instances eine Rolle zu. Um einer EC2-Instance eine Rolle zuzuweisen, folgen Sie den Schritten unter [Anfügen einer IAM-Rolle an eine Instance](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/attach-iam-role.html).

### Schritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store
<a name="Solution-NVIDIA-GPU-Agent-Step2"></a>

Parameter Store vereinfacht die Installation des CloudWatch Agenten auf einer EC2-Instance, indem Konfigurationsparameter sicher gespeichert und verwaltet werden, sodass keine hartcodierten Werte erforderlich sind. Das gestaltet den Bereitstellungsprozess sicherer und flexibler und ermöglicht eine zentrale Verwaltung und einfachere Aktualisierungen von Konfigurationen über mehrere Instances hinweg.

Gehen Sie wie folgt vor, um die empfohlene CloudWatch Agent-Konfigurationsdatei als Parameter im Parameter Store zu speichern.

**Um die CloudWatch Agenten-Konfigurationsdatei als Parameter zu erstellen**

1. Öffnen Sie die AWS Systems Manager Konsole unter [https://console.aws.amazon.com/systems-manager/](https://console.aws.amazon.com/systems-manager/).

1. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

1. Wählen Sie im Navigationsbereich **Anwendungsmanagement**, **Parameter Store** aus.

1. Befolgen Sie diese Schritte, um einen neuen Parameter für die Konfiguration zu erstellen.

   1. Wählen Sie **Parameter erstellen** aus.

   1. Geben Sie im Feld **Name** einen Namen ein, mit dem Sie in späteren Schritten auf die CloudWatch Agenten-Konfigurationsdatei verweisen werden. Beispiel, **AmazonCloudWatch-NVIDIA-GPU-Configuration**.

   1. (Optional) Geben Sie in das Feld **Beschreibung** eine Beschreibung für den Parameter ein.

   1. Wählen Sie für **Parameterstufe** die Option **Standard** aus.

   1. Wählen Sie unter **Type** (Typ) die Option **String** (Zeichenfolge) aus.

   1. Wählen Sie als **Datentyp** die Option **Text** aus.

   1. Fügen Sie in das Feld **Wert** den entsprechenden JSON-Block ein, der unter [Agentenkonfiguration für diese Lösung](#Solution-NVIDIA-GPU-Agent-Config) aufgeführt war.

   1. Wählen Sie **Parameter erstellen** aus.

### Schritt 3: Installieren Sie den CloudWatch Agenten und wenden Sie die Konfiguration mithilfe einer CloudFormation Vorlage an
<a name="Solution-NVIDIA-GPU-Agent-Step3"></a>

Sie können AWS CloudFormation damit den Agenten installieren und ihn so konfigurieren, dass er die CloudWatch Agentenkonfiguration verwendet, die Sie in den vorherigen Schritten erstellt haben.

**Um den CloudWatch Agenten für diese Lösung zu installieren und zu konfigurieren**

1. Öffnen Sie den Assistenten CloudFormation **zum schnellen Erstellen von Stacks** über diesen Link: [ https://console.aws.amazon.com/cloudformation/Home? \#/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw agent-installation-template -1.0.0.json](https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw-agent-installation-template-1.0.0.json).

1. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

1. Geben Sie unter **Stack-Name** einen Namen für diesen Stack, z. B. **CWAgentInstallationStack**, ein.

1. Gehen Sie im Abschnitt **Parameter** wie folgt vor:

   1. Geben Sie für **CloudWatchAgentConfigSSM** den Namen des Systems Manager Manager-Parameters für die Agentenkonfiguration ein, die Sie zuvor erstellt haben, z. B. **AmazonCloudWatch-NVIDIA-GPU-Configuration**

   1. Um die Ziel-Instances auszuwählen, haben Sie zwei Optionen.

      1. Geben Sie für **InstanceIds**eine durch Kommas getrennte Liste der Instanzen eine Liste der Instanzen IDs an, IDs in denen Sie den CloudWatch Agenten mit dieser Konfiguration installieren möchten. Sie können eine einzelne Instance oder mehrere Instances auflisten.

      1. Wenn Sie die Bereitstellung in großem Umfang durchführen, können Sie die **TagKey**und die entsprechende **TagValue**Option für alle EC2-Instances mit diesem Tag und Wert angeben. Wenn Sie eine angeben **TagKey**, müssen Sie eine entsprechende **TagValue**angeben. (Geben Sie für eine Auto Scaling Scaling-Gruppe **aws:autoscaling:groupName** für die **TagKey**und den Namen der Auto Scaling Scaling-Gruppe an, die **TagValue**auf allen Instances innerhalb der Auto Scaling Scaling-Gruppe bereitgestellt werden soll.)

1. Überprüfen Sie die Einstellungen und wählen Sie dann **Stack erstellen** aus.

Wenn Sie die Vorlagendatei zuerst bearbeiten möchten, um sie anzupassen, wählen Sie im **Assistenten zum Erstellen von Stacks** die Option **Eine Vorlagendatei hochladen** aus, um die bearbeitete Vorlage hochzuladen. Weitere Informationen finden Sie unter [Einen Stack auf der CloudFormation Konsole](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/cfn-console-create-stack.html) erstellen.

**Anmerkung**  
Nach Abschluss dieses Schritts wird dieser Systems Manager Manager-Parameter den CloudWatch Agenten zugeordnet, die in den Zielinstanzen ausgeführt werden. Dies bedeutet, dass:  
Wenn der Systems-Manager-Parameter gelöscht wird, wird der Agent gestoppt.
Wenn der Systems-Manager-Parameter bearbeitet wird, werden die Konfigurationsänderungen automatisch in der geplanten Häufigkeit, die standardmäßig 30 Tage beträgt, für den Agenten übernommen.
Wenn Sie Änderungen an diesem Systems-Manager-Parameter sofort anwenden möchten, müssen Sie diesen Schritt erneut ausführen. Weitere Informationen über Zuordnungen finden Sie unter [Arbeiten mit Zuordnungen in Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/state-manager-associations.html).

### Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist
<a name="Solution-NVIDIA-GPU-Agent-Step4"></a>

Sie können überprüfen, ob der CloudWatch Agent installiert ist, indem Sie die Schritte unter befolgen[Stellen Sie sicher, dass der CloudWatch Agent läuft](troubleshooting-CloudWatch-Agent.md#CloudWatch-Agent-troubleshooting-verify-running). Wenn der CloudWatch Agent nicht installiert ist und nicht ausgeführt wird, stellen Sie sicher, dass Sie alles richtig eingerichtet haben.
+ Sorgen Sie dafür, dass Sie der EC2-Instance eine Rolle mit den richtigen Berechtigungen zugewiesen haben, wie unter beschrieben [Schritt 1: Stellen Sie sicher, dass die EC2-Ziel-Instances über die erforderlichen IAM-Berechtigungen verfügen](#Solution-NVIDIA-GPU-Agent-Step1).
+ Stellen Sie sicher, dass Sie JSON für den Systems-Manager-Parameter korrekt konfiguriert haben. Führen Sie die Schritte unter [Fehlerbehebung bei der Installation des CloudWatch Agenten mit CloudFormation](Install-CloudWatch-Agent-New-Instances-CloudFormation.md#CloudWatch-Agent-CloudFormation-troubleshooting) aus.

Wenn alles korrekt eingerichtet ist, sollten Sie sehen, dass die NVIDIA-GPU-Metriken veröffentlicht werden CloudWatch. Sie können in der CloudWatch Konsole nachsehen, ob sie veröffentlicht wurden.

**Um zu überprüfen, ob NVIDIA-GPU-Metriken veröffentlicht werden CloudWatch**

1. Öffnen Sie die CloudWatch Konsole unter [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Wählen Sie **Metriken**, **Alle Metriken** aus.

1. Vergewissern Sie sich, dass Sie die Region ausgewählt haben, in der Sie die Lösung bereitgestellt haben, und wählen Sie **Benutzerdefinierte Namespaces**,. **CWAgent**

1. Suchen Sie nach den unter genannten Metriken in [Agentenkonfiguration für diese Lösung](#Solution-NVIDIA-GPU-Agent-Config), z. B. `nvidia_smi_utilization_gpu`. Wenn Sie Ergebnisse für diese Metriken sehen, werden die Metriken unter veröffentlicht. CloudWatch

## Erstellen des Dashboards für die NVIDIA-GPU-Lösung
<a name="Solution-NVIDIA-GPU-Dashboard"></a>

Das von dieser Lösung bereitgestellte Dashboard präsentiert GPUs NVIDIA-Metriken, indem es Metriken für alle Instanzen aggregiert und präsentiert. Das Dashboard zeigt eine Aufschlüsselung der wichtigsten Faktoren (Top-10-pro-Metrik-Widget) für jede Metrik. Auf diese Weise identifizieren Sie schnell Ausreißer oder Fälle, die erheblich zu den beobachteten Metriken beitragen.

Um das Dashboard zu erstellen, können Sie die folgenden Optionen nutzen.
+ Verwenden Sie die CloudWatch Konsole, um das Dashboard zu erstellen.
+ Verwenden Sie die AWS CloudFormation Konsole, um das Dashboard bereitzustellen.
+ Laden Sie die AWS CloudFormation Infrastruktur als Code herunter und integrieren Sie sie als Teil Ihrer Continuous Integration (CI) -Automatisierung.

Wenn Sie die CloudWatch Konsole zum Erstellen eines Dashboards verwenden, können Sie eine Vorschau des Dashboards anzeigen, bevor Sie es tatsächlich erstellen und bezahlen.

**Anmerkung**  
Das CloudFormation in dieser Lösung erstellte Dashboard zeigt Metriken aus der Region an, in der die Lösung bereitgestellt wird. Stellen Sie sicher, dass Sie den CloudFormation Stack in der Region erstellen, in der Ihre NVIDIA-GPU-Metriken veröffentlicht werden.  
Wenn Sie einen anderen benutzerdefinierten Namespace als CWAgent in der CloudWatch Agentenkonfiguration angegeben haben, müssen Sie die CloudFormation Vorlage für das Dashboard so ändern, dass sie durch den von Ihnen verwendeten benutzerdefinierten Namespace CWAgent ersetzt wird.

**Um das Dashboard über die Konsole zu erstellen CloudWatch**

1. Öffnen Sie die CloudWatch Konsole **Create Dashboard** über diesen Link: [ https://console.aws.amazon.com/cloudwatch/Home? \#dashboards? NvidiaGpuOnEcDashboardTemplate=](https://console.aws.amazon.com/cloudwatch/home?#dashboards?dashboardTemplate=NvidiaGpuOnEc2&referrer=os-catalog) 2&referrer=os-catalog. 

1. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

1. Geben Sie einen Namen für das Dashboard ein und wählen Sie **Dashboard erstellen**.

   Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B. **NVIDIA-GPU-Dashboard-us-east-1**.

1. Zeigen Sie eine Vorschau des Dashboards an und wählen Sie **Speichern** aus, um das Dashboard zu erstellen.

**Um das Dashboard zu erstellen über CloudFormation**

1. Öffnen Sie den Assistenten CloudFormation **zum schnellen Erstellen von Stacks** über diesen Link: [ https://console.aws.amazon.com/cloudformation/Home? \#/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA\_GPU\_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json](https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json).

1. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

1. Geben Sie unter **Stack-Name** einen Namen für diesen Stack, z. B. **NVIDIA-GPU-DashboardStack**, ein.

1. Geben Sie im Abschnitt **Parameter** den Namen des Dashboards unter dem Parameter an. **DashboardName**

1. Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B. **NVIDIA-GPU-Dashboard-us-east-1**.

1. Bestätigen Sie die Zugriffsmöglichkeiten für Transformationen unter **Funktionen und Transformationen**. Beachten Sie, dass dadurch CloudFormation keine IAM-Ressourcen hinzugefügt werden.

1. Überprüfen Sie die Einstellungen und wählen Sie dann **Stack erstellen** aus.

1. Wenn der Stack-Status **CREATE\_COMPLETE** lautet, wählen Sie unter dem erstellten Stack die Registerkarte **Ressourcen** und dann den Link unter **Physische ID** aus, um zum Dashboard zu gelangen. Sie können auch in der CloudWatch Konsole auf das Dashboard zugreifen, indem Sie im linken Navigationsbereich der Konsole **Dashboards** auswählen und den Namen des Dashboards unter **Benutzerdefinierte** Dashboards suchen.

Wenn Sie die Vorlagendatei bearbeiten möchten, um sie für beliebige Zwecke anzupassen, können Sie im **Assistenten zum Erstellen von Stacks** die Option **Eine Vorlagendatei hochladen** auswählen, um die bearbeitete Vorlage hochzuladen. Weitere Informationen finden Sie unter [Erstellen eines Stacks in der CloudFormation -Konsole](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/cfn-console-create-stack.html). [Sie können diesen Link verwenden, um die Vorlage herunterzuladen: https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA\_GPU\_EC2/ CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.](https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json)

### Erste Schritte mit dem NVIDIA-GPU-Dashboard
<a name="Solution-NVIDIA-GPU-Dashboard-GetStarted"></a>

Hier finden Sie ein paar Aufgaben, die Sie mit dem neuen NVIDIA-GPU-Dashboard ausprobieren können. Mit diesen Aufgaben können Sie überprüfen, ob das Dashboard ordnungsgemäß funktioniert, und Sie erhalten praktische Erfahrungen mit der Verwendung des Dashboards zur Überwachung Ihres NVIDIA-Geräts. GPUs Wenn Sie diese Optionen ausprobieren, werden Sie sich mit der Navigation im Dashboard und der Interpretation der visualisierten Metriken vertraut machen.

**Überprüfen der GPU-Auslastung**

Suchen Sie im Abschnitt **Auslastung** nach den Widgets **GPU-Auslastung** und **Speicherauslastung**. Diese zeigen den Prozentsatz der Zeit, in der die GPU aktiv für Berechnungen verwendet wird, und den Prozentsatz des globalen Speichers, der gelesen bzw. geschrieben wird. Eine hohe Auslastung könnte auf potenzielle Leistungsengpässe oder den Bedarf an zusätzlichen GPU-Ressourcen hindeuten.

**Analysieren der GPU-Speicherauslastung**

Suchen Sie im Bereich **Speicher** nach den Widgets **Gesamtspeicher**, **Verwendeter Speicher** und **Freier Speicher**. Diese geben Aufschluss über die Gesamtspeicherkapazität von GPUs und darüber, wie viel Speicher derzeit verbraucht oder verfügbar ist. Speicherauslastung kann zu Leistungsproblemen oder out-of-memory Fehlern führen. Daher ist es wichtig, diese Messwerte zu überwachen und sicherzustellen, dass ausreichend Arbeitsspeicher für Ihre Workloads verfügbar ist.

**Überwachen von Temperatur und Stromaufnahme**

Suchen Sie im Bereich **Temperatur/Leistung** nach den Widgets **GPU-Temperatur** und **Stromaufnahme**. Diese Messwerte sind wichtig, um sicherzustellen, dass Sie GPUs innerhalb sicherer Wärme- und Leistungsgrenzen arbeiten.

**Identifizieren der Encoder-Leistung**

Suchen Sie im Bereich **Encoder** nach den Widgets **Anzahl der Encoder-Sitzungen**, **Durchschnittliche FPS** und **Durchschnittliche Latenz**. Diese Metriken sind relevant, wenn Sie Videokodierungs-Workloads auf Ihrem GPUs ausführen. Überwachen Sie diese Messwerte, um dafür zu sorgen, dass Ihre Encoder optimal funktionieren, und um potenzielle Engpässe oder Leistungsprobleme zu identifizieren.

**Überprüfen Sie den PCIe Linkstatus**

Suchen Sie in **PCIe**diesem Abschnitt nach den Widgets **PCIe Linkgenerierung** und **PCIe Linkbreite**. Diese Metriken liefern Informationen über den PCIe Link, der die GPU mit dem Hostsystem verbindet. Stellen Sie sicher, dass der Link mit der erwarteten Generation und Breite betrieben wird, um mögliche Leistungseinschränkungen aufgrund von PCIe Engpässen zu vermeiden.

**Überprüfen der GPU-Taktfrequenzen**

Suchen Sie im Bereich **Taktfrequenz** nach den Widgets **Grafiktakt**, **SM-Takt**, **Speichertakt** und **Videotakt**. Diese Metriken zeigen die aktuellen Betriebsfrequenzen verschiedener GPU-Komponenten. Durch die Überwachung dieser Taktfrequenzen können potenzielle Probleme mit der GPU-Taktskalierung oder Frequenzdrosselung erkannt werden, die sich auf die Leistung auswirken könnten.