

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Metriken und Dimensionen in Managed Service für Apache Flink
<a name="metrics-dimensions"></a>

Wenn Ihr Managed Service für Apache Flink eine Datenquelle verarbeitet, meldet Managed Service for Apache Flink die folgenden Metriken und Dimensionen an Amazon. CloudWatch

**Änderungen der Flink 2.2-Metrik**  
Flink 2.2 führt metrische Änderungen ein, die sich auf Ihre Überwachung und Alarme auswirken können. Überprüfen Sie vor dem Upgrade die folgenden Änderungen:  
Die `fullRestarts` Metrik wurde entfernt. Verwenden Sie stattdessen `numRestarts`.
Die `downtime` Metriken `uptime` und sind veraltet und werden in einer future Version entfernt. Migrieren Sie zu den neuen landesspezifischen Metriken.
Die `bytesRequestedPerFetch` Metrik für den Kinesis Data Streams Streams-Connector 6.0.0 wurde entfernt.

## Anwendungsmetriken
<a name="metrics-dimensions-jobs"></a>


| Metrik | Einheit | Description | Level | Nutzungshinweise | 
| --- | --- | --- | --- | --- | 
| backPressuredTimeMsPerSecond\$1 | Millisekunden | Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde unter Gegendruck gesetzt wird. | Aufgabe, Operator, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. | 
| busyTimeMsPerSecond\$1 | Millisekunden | Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde beschäftigt (weder inaktiv noch unter Gegendruck gesetzt) ist. Kann NaN sein, wenn der Wert nicht berechnet werden konnte. | Aufgabe, Operator, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. | 
| cpuUtilization | Prozentsatz | Prozentsatz der CPU-Auslastung in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. | Anwendung | Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale CPU-Auslastung in Ihrer Anwendung zu überwachen. Die CPUUtilization Metrik berücksichtigt nur die CPU-Auslastung des TaskManager JVM-Prozesses, der im Container ausgeführt wird.  | 
| containerCPUUtilization | Prozentsatz | Gesamtprozentsatz der CPU-Auslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: *Gesamt-CPU-Zeit (in Sekunden), die vom Container verbraucht wird \$1 100/Container-CPU-Limit (in CPUs /Sekunden)* Die `CPUUtilization` Metrik berücksichtigt nur die CPU-Auslastung des TaskManager JVM-Prozesses, der im Container ausgeführt wird. Es gibt andere Komponenten, die außerhalb der JVM innerhalb desselben Containers ausgeführt werden. Die `containerCPUUtilization`-Metrik gibt Ihnen ein vollständigeres Bild, einschließlich aller Prozesse im Hinblick auf die CPU-Auslastung im Container und die daraus resultierenden Ausfälle.  | 
| containerMemoryUtilization | Prozentsatz | Gesamtprozentsatz der Speicherauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: *Speichernutzung des Containers (Byte) \$1 100/Container-Speicherlimit gemäß der Pod-Bereitstellungsspezifikation (in Byte)* Die `ManagedMemoryUtilzations` Metriken `HeapMemoryUtilization` und berücksichtigen nur bestimmte Speichermetriken wie die Heap-Speicherauslastung von TaskManager JVM oder Managed Memory (Speichernutzung außerhalb von JVM für native Prozesse wie [RocksDB](https://flink.apache.org/2021/01/18/rocksdb.html#:~:text=Conclusion-,The%20RocksDB%20state%20backend%20(i.e.%2C%20RocksDBStateBackend)%20is%20one%20of,with%20exactly%2Donce%20processing%20guarantees.) State Backend). Die `containerMemoryUtilization`-Metrik gibt Ihnen ein vollständigeres Bild, da sie den festgelegten Arbeitsspeicher mit einbezieht, wodurch die gesamte Speichererschöpfung besser erfasst werden kann. Wenn es erschöpft ist, führt es dazu, dass der Pod kaputt geht. `Out of Memory Error` TaskManager   | 
| containerDiskUtilization | Prozentsatz | Gesamtprozentsatz der Festplattenauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von einer Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: *Festplattennutzung in Byte \$1 100/Festplattenlimit für Container in Byte* Bei Containern steht dies für die Nutzung des Dateisystems, auf dem das Root-Volume des Containers eingerichtet ist.  | 
| currentInputWatermark | Millisekunden | Das letzte Wasserzeichen, das diese Datei erhalten hat application/operator/task/thread | Anwendung, Operator, Aufgabe, Parallelität | Dieser Datensatz wird nur für Dimensionen mit zwei Eingaben ausgegeben. Dies ist der Mindestwert der zuletzt empfangenen Wasserzeichen. | 
| currentOutputWatermark | Millisekunden | Das letzte Wasserzeichen, das dadurch application/operator/task/thread ausgegeben wurde | Anwendung, Operator, Aufgabe, Parallelität |  | 
| downtime[VERALTET] | Millisekunden | Bei Jobs, die sich derzeit in einer failing/recovering Situation befinden, ist dies die Zeit, die während dieses Ausfalls verstrichen ist. | Anwendung | Diese Kennzahl misst die Zeit, die verstrichen ist, während ein Job ausfällt oder wiederhergestellt wird. Diese Metrik gibt 0 für laufende Jobs und -1 für abgeschlossene Jobs zurück. Wenn diese Metrik nicht 0 oder -1 ist, bedeutet dies, dass der Apache Flink-Job für die Anwendung nicht ausgeführt werden konnte. **In Flink 2.2 veraltet.** Verwenden Sie stattdessen`restartingTime`. `cancellingTime` and/or `failingTime` | 
| failingTime | Millisekunden | Die Zeit (in Millisekunden), die die Anwendung in einem fehlerhaften Zustand verbracht hat. Verwenden Sie diese Metrik, um Anwendungsausfälle zu überwachen und Warnmeldungen auszulösen. | Anwendung, Ablauf | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. | 
| heapMemoryUtilization | Prozentsatz | Gesamtauslastung des Heap-Speichers in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. | Anwendung | Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale Heap-Speicherauslastung in Ihrer Anwendung zu überwachen. Sie berücksichtigt HeapMemoryUtilization nur bestimmte Speichermetriken wie die Heap-Speicherauslastung von JVM. TaskManager  | 
| idleTimeMsPerSecond\$1 | Millisekunden | Die Zeit (in Millisekunden), in der sich diese Task oder dieser Operator pro Sekunde im Leerlauf befindet (keine zu verarbeitenden Daten hat). Bei der Leerlaufzeit wird die Zeit nicht berücksichtigt, in der Gegendruck ausgeübt wird, wenn also die Aufgabe unter Gegendruck steht, handelt es sich nicht um Inaktivität. | Aufgabe, Operator, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. | 
| lastCheckpointSize | Bytes | Die Gesamtgröße des letzten Prüfpunkts | Anwendung | Sie können diese Metrik verwenden, um die Speicherauslastung laufender Anwendungen zu ermitteln. Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass. | 
| lastCheckpointDuration | Millisekunden | Die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen | Anwendung | Diese Kennzahl misst die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen. Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass. In einigen Fällen können Sie dieses Problem beheben, indem Sie die Prüfpunktprüfung deaktivieren. | 
| managedMemoryUsed\$1 | Bytes | Die derzeit verwendete verwaltete Speichermenge. | Anwendung, Operator, Aufgabe, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. | 
| managedMemoryTotal\$1 | Bytes | Die Gesamtgröße des verwalteten Speichers. | Anwendung, Operator, Aufgabe, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. Die `ManagedMemoryUtilzations`-Metrik berücksichtigt nur bestimmte Speichermetriken wie Managed Memory (Speichernutzung außerhalb von JVM für native Prozesse wie [RocksDB State Backend](https://flink.apache.org/2021/01/18/rocksdb.html#:~:text=Conclusion-,The%20RocksDB%20state%20backend%20(i.e.%2C%20RocksDBStateBackend)%20is%20one%20of,with%20exactly%2Donce%20processing%20guarantees.)) | 
| managedMemoryUtilization\$1 | Prozentsatz | Abgeleitet von/ managedMemoryUsedmanagedMemoryTotal | Anwendung, Operator, Aufgabe, Parallelität | \$1Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. | 
| numberOfFailedCheckpoints | Anzahl | Gibt an, wie oft die Prüfpunktüberprüfung fehlgeschlagen ist. | Anwendung | Sie können diese Metrik verwenden, um den Zustand und den Fortschritt von Anwendungen zu überwachen. Prüfpunkte können aufgrund von Anwendungsproblemen wie Durchsatz- oder Berechtigungsprobleme fehlschlagen.  | 
| numRecordsIn\$1 | Anzahl | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe erhalten hat. | Anwendung, Operator, Aufgabe, Parallelität | \$1Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html) Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe empfangen hat. | 
| numRecordsInPerSecond\$1 | Anzahl/Sekunde | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde erhalten hat. | Anwendung, Operator, Aufgabe, Parallelität | \$1Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html) Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde empfangen hat. | 
| numRecordsOut\$1 | Anzahl | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe ausgegeben hat. | Anwendung, Operator, Aufgabe, Parallelität |  \$1Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html) Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe ausgegeben hat. | 
| numLateRecordsDropped\$1 | Anzahl | Anwendung, Operator, Aufgabe, Parallelität |  | \$1Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html) Die Anzahl der Datensätze, die dieser Operator oder diese Aufgabe aufgrund einer verspäteten Ankunft gelöscht hat. | 
| numRecordsOutPerSecond\$1 | Anzahl/Sekunde | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde ausgegeben hat. | Anwendung, Operator, Aufgabe, Parallelität |  \$1Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html) Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde ausgegeben hat. | 
| oldGenerationGCCount | Anzahl | Die Gesamtzahl der alten Garbage-Collection-Vorgänge, die in allen Task-Managern stattgefunden haben.  | Anwendung |  | 
| oldGenerationGCTime | Millisekunden | Die Gesamtzeit, die für die Durchführung alter Garbage-Collection-Vorgänge aufgewendet wurde.  | Anwendung | Sie können diese Metrik verwenden, um die Summe, den Durchschnitt und die maximale Zeit für die Garbage Collection zu überwachen. | 
| threadsCount | Anzahl | Die Gesamtzahl der von der Anwendung verwendeten Live-Threads.  | Anwendung | Diese Metrik misst die Anzahl der Threads, die vom Anwendungscode verwendet werden. Dies ist nicht dasselbe wie Anwendungsparallelität. | 
| cancellingTime | Millisekunden | Die Zeit (in Millisekunden), die die Anwendung im Abbruchstatus verbracht hat. Verwenden Sie diese Metrik, um Vorgänge zum Abbrechen von Anwendungen zu überwachen. | Anwendung, Ablauf | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. | 
| restartingTime | Millisekunden | Die Zeit (in Millisekunden), die die Anwendung im Neustartzustand verbracht hat. Verwenden Sie diese Metrik, um das Neustartverhalten von Anwendungen zu überwachen. | Anwendung, Flow | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. | 
| runningTime | Millisekunden | Die Zeit (in Millisekunden), zu der die Anwendung ohne Unterbrechung ausgeführt wurde. Ersetzt die veraltete Metrik. uptime | Anwendung, Ablauf | Verfügbar ab Flink 2.2. Verwenden Sie es als direkten Ersatz für die veraltete Metrikuptime. | 
| uptime[VERALTET] | Millisekunden | Die Zeit, zu der der Job ohne Unterbrechung ausgeführt wurde. | Anwendung | Sie können diese Metrik verwenden, um festzustellen, ob ein Job erfolgreich ausgeführt wird. Diese Metrik gibt -1 für abgeschlossene Jobs zurück. **In Flink 2.2 veraltet.** Verwenden Sie stattdessen `runningTime`. | 
| jobmanagerFileDescriptorsMax | Anzahl | Die maximale Anzahl von Dateideskriptoren, die für verfügbar sind. JobManager | Anwendung, Flow, Host | Verwenden Sie diese Metrik, um die Kapazität von Dateideskriptoren zu überwachen. | 
| jobmanagerFileDescriptorsOpen | Anzahl | Die aktuelle Anzahl offener Dateideskriptoren für. JobManager | Anwendung, Flow, Host | Verwenden Sie diese Metrik, um die Nutzung von Dateideskriptoren zu überwachen und eine potenzielle Ressourcenerschöpfung zu erkennen. | 
| taskmanagerFileDescriptorsMax | Anzahl | Die maximale Anzahl von Dateideskriptoren, die jedem zur Verfügung stehen. TaskManager | Anwendung, Flow, Host, tm\$1id | Verwenden Sie diese Metrik, um die Kapazität von Dateideskriptoren zu überwachen. | 
| taskmanagerFileDescriptorsOpen | Anzahl | Die aktuelle Anzahl der offenen Dateideskriptoren für jeden. TaskManager | Anwendung, Flow, Host, tm\$1id | Verwenden Sie diese Metrik, um die Nutzung von Dateideskriptoren zu überwachen und eine potenzielle Ressourcenerschöpfung zu erkennen. | 
| KPUs\$1 | Anzahl | Die Gesamtzahl der von der KPUs Anwendung verwendeten. | Anwendung | \$1Für diese Kennzahl wird eine Stichprobe pro Abrechnungszeitraum (eine Stunde) verwendet. Verwenden Sie MAX oder AVG KPUs über einen Zeitraum von mindestens einer (1) Stunde, um die Anzahl der Ereignisse im Laufe der Zeit zu visualisieren. Die KPU-Anzahl beinhaltet die `orchestration` KPU. Weitere Informationen finden Sie unter Preise für [Managed Service for Apache Flink](https://aws.amazon.com/managed-service-apache-flink/pricing/). | 

**Leitfaden für die Migration metrischer Daten zu Flink 2.2**  
**Migration von FullRestarts:** Die `fullRestarts` Metrik wurde in Flink 2.2 entfernt. Verwenden Sie stattdessen die Metrik`numRestarts`. Die `numRestarts` Metrik bietet gleichwertige Funktionen und kann als direkter Ersatz für CloudWatch Alarme verwendet werden, ohne dass Schwellenwertanpassungen erforderlich sind.  
**Migration von Uptime:** Die `uptime` Metrik ist in Flink 2.2 veraltet und wird in einer future Version entfernt. Verwenden Sie stattdessen die Metrik. `runningTime` Die `runningTime` Metrik bietet gleichwertige Funktionen und kann als direkter Ersatz für CloudWatch Alarme verwendet werden, ohne dass Schwellenwertanpassungen erforderlich sind.  
**Migration nach einer Ausfallzeit:** Die `downtime` Metrik ist in Flink 2.2 veraltet und wird in einer future Version entfernt. Je nachdem, was Sie überwachen möchten, verwenden Sie eine oder mehrere der folgenden Metriken:  
`restartingTime`: Überwachen Sie die Zeit, die für den Neustart der Anwendung aufgewendet wurde
`cancellingTime`: Überwachen Sie die Zeit, die für das Abbrechen der Anwendung aufgewendet wurde
`failingTime`: Überwachen Sie die Zeit, die in einem fehlerhaften Zustand verbracht wurde

## Metriken für den Kinesis Data Streams Streams-Konnektor
<a name="metrics-dimensions-stream"></a>

AWS gibt alle Datensätze für Kinesis Data Streams zusätzlich zu den folgenden aus:


| Metrik | Einheit | Description | Level | Nutzungshinweise | 
| --- | --- | --- | --- | --- | 
| millisbehindLatest | Millisekunden | Die Anzahl der Millisekunden, die der Verbraucher hinter der Spitze des Streams zurückliegt. Dies zeigt an, wie weit der Verbraucher hinter der aktuellen Zeit zurückliegt. | Anwendung (für Stream), Parallelismus (für) ShardId | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/managed-flink/latest/java/metrics-dimensions.html)  | 

**Anmerkung**  
Die `bytesRequestedPerFetch` Metrik wurde in der AWS Flink-Connector-Version 6.0.0 (der einzigen Connector-Version, die mit Flink 2.2 kompatibel ist) entfernt. Die einzige in Flink 2.2 verfügbare Kinesis Data Streams Streams-Connector-Metrik ist. `millisBehindLatest`

## Amazon MSK-Connector-Metriken
<a name="metrics-dimensions-msk"></a>

AWS gibt alle Datensätze für Amazon MSK zusätzlich zu den folgenden aus:


| Metrik | Einheit | Description | Level | Nutzungshinweise | 
| --- | --- | --- | --- | --- | 
| currentoffsets | – | Der aktuelle Lese-Offset des Verbrauchers für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. | Anwendung (für Thema), Parallelität (für) PartitionId |  | 
| commitsFailed | – | Die Gesamtzahl der Fehler beim Offset-Commit an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind.  | Anwendung, Operator, Aufgabe, Parallelität | Das Zurückschreiben von Offsets an Kafka ist nur ein Mittel, um den Verbraucherfortschritt aufzudecken. Ein Commit-Fehler beeinträchtigt also nicht die Integrität der Prüfpunkt-Partitions-Offsets von Flink. | 
| commitsSucceeded | – | Die Gesamtzahl erfolgreichen Offset-Commits an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind.  | Anwendung, Operator, Aufgabe, Parallelität |  | 
| committedoffsets | – | Die letzten erfolgreich an Kafka übergebenen Offsets für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. | Anwendung (für Thema), Parallelität (für) PartitionId |  | 
| records\$1lag\$1max | Anzahl | Die maximale Verzögerung in Bezug auf die Anzahl der Datensätze für jede Partition in diesem Fenster | Anwendung, Operator, Aufgabe, Parallelität |  | 
| bytes\$1consumed\$1rate | Bytes | Die durchschnittliche Anzahl von Bytes, die pro Sekunde für ein Thema verbraucht werden | Anwendung, Operator, Aufgabe, Parallelität |  | 

## Apache Zeppelin-Metriken
<a name="metrics-dimensions-zeppelin"></a>

Gibt für AWS Studio-Notebooks die folgenden Metriken auf Anwendungsebene aus:`KPUs`,,`cpuUtilization`, `heapMemoryUtilization``oldGenerationGCTime`, `oldGenerationGCCount` und. `threadCount` Darüber hinaus werden die in der folgenden Tabelle aufgeführten Metriken auch auf Anwendungsebene ausgegeben.


****  

| Metrik | Einheit | Description | Prometheus-Name | 
| --- | --- | --- | --- | 
| zeppelinCpuUtilization | Prozentsatz | Gesamtprozentsatz der CPU-Auslastung auf dem Apache Zeppelin-Server. | process\$1cpu\$1usage | 
| zeppelinHeapMemoryUtilization | Prozentsatz | Gesamtprozentsatz der Heap-Speicherauslastung für den Apache Zeppelin-Server. | jvm\$1memory\$1used\$1bytes | 
| zeppelinThreadCount | Anzahl | Die Gesamtzahl der vom Apache Zeppelin-Server verwendeten Live-Threads. | jvm\$1threads\$1live\$1threads | 
| zeppelinWaitingJobs | Anzahl | Die Anzahl der Apache Zeppelin-Jobs in der Warteschlange, die auf einen Thread warten. | jetty\$1threads\$1jobs | 
| zeppelinServerUptime | Sekunden | Die Gesamtzeit, in der der Server betriebsbereit war. | process\$1uptime\$1seconds | 

# Metriken anzeigen CloudWatch
<a name="metrics-dimensions-viewing"></a>

Sie können CloudWatch Metriken für Ihre Anwendung über die CloudWatch Amazon-Konsole oder die anzeigen AWS CLI.

**Um Metriken über die CloudWatch Konsole anzuzeigen**

1. Öffnen Sie die CloudWatch Konsole unter [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Wählen Sie im Navigationsbereich **Metrics** (Metriken) aus.

1. Wählen Sie im Bereich „**CloudWatch Metriken nach Kategorie**“ für Managed Service for Apache Flink eine Metrikkategorie aus.

1. Führen Sie im oberen Bereich einen Bildlauf durch, um die vollständige Liste der Metriken anzuzeigen.

**Um Metriken anzuzeigen, verwenden Sie AWS CLI**
+ Geben Sie als Eingabeaufforderung den folgenden Befehl ein.

  ```
  1. aws cloudwatch list-metrics --namespace "AWS/KinesisAnalytics" --region region
  ```

# Legen Sie Berichtsebenen für CloudWatch Kennzahlen fest
<a name="cloudwatch-logs-levels"></a>

Sie können die Ebene der Anwendungsmetriken steuern, die Ihre Anwendung erstellt. Managed Service für Apache Flink unterstützt die folgenden Metrikebenen:
+ **Anwendung:** Die Anwendung meldet für jede Anwendung nur die höchste Stufe an Metriken. Die Metriken von Managed Service für Apache Flink werden standardmäßig auf Anwendungsebene veröffentlicht.
+ **Aufgabe:** Die Anwendung meldet aufgabenspezifische Metrikdimensionen für Metriken, die mit der Berichtsebene Aufgaben-Metrik definiert wurden, wie z. B. die Anzahl der Datensätze pro Sekunde, die in die Anwendung ein- und von ihr ausgehen.
+ **Operator:** Die Anwendung meldet operatorspezifische Metrikdimensionen für Metriken, die mit der Berichtsebene Operator-Metrik definiert wurden, wie z. B. Metriken für jeden Filter- oder Zuordnungsvorgang.
+ **Parallelität:** Die Anwendung erstellt `Task`- und `Operator`–Ebenen-Metriken für jeden Ausführungsthread. Diese Berichtsebene wird wegen übermäßiger Kosten nicht für Anwendungen mit Parallelitätseinstellung über 64 empfohlen. 
**Anmerkung**  
Aufgrund der Menge an Metrikdaten, die der Service generiert, sollten Sie diese Metrikebene nur zur Fehlerbehebung verwenden. Sie können diese Metrikebene nur mit der CLI festlegen. Diese Metrikebene ist in der Konsole nicht verfügbar.

Die Standardebene ist **Anwendung**. Die Anwendung meldet Metriken auf der aktuellen Ebene und allen höheren Ebenen. Wenn die Berichtsebene beispielsweise auf **Operator** gesetzt ist, meldet die Anwendung **Anwendungs**-, **Aufgaben**-, and **Operator**-Metriken.

Sie legen die Berichtsebene für CloudWatch Metriken mithilfe des `MonitoringConfiguration` [https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_CreateApplication.html](https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_CreateApplication.html)Aktionsparameters oder des `MonitoringConfigurationUpdate` [https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html](https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html)Aktionsparameters fest. In der folgenden Beispielanforderung für die [https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html](https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html)Aktion wird die Berichtsebene für die CloudWatch Metriken auf **Aufgabe** festgelegt:

```
{
   "ApplicationName": "MyApplication",  
   "CurrentApplicationVersionId": 4,
   "ApplicationConfigurationUpdate": { 
      "FlinkApplicationConfigurationUpdate": { 
         "MonitoringConfigurationUpdate": { 
            "ConfigurationTypeUpdate": "CUSTOM",
            "MetricsLevelUpdate": "TASK"
         }
      }
   }
}
```

Sie können die Protokollierungsebene auch mithilfe des `LogLevel`-Parameters der Aktion [https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_CreateApplication.html](https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_CreateApplication.html) oder des `LogLevelUpdate`-Parameters der Aktion [https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html](https://docs.aws.amazon.com/managed-service-for-apache-flink/latest/apiv2/API_UpdateApplication.html) konfigurieren. Sie können die folgenden Protokollebenen verwenden:
+ `ERROR`: Protokolliert potenziell behebbare Fehlerereignisse.
+ `WARN`: Protokolliert Warnereignisse, die zu einem Fehler führen könnten.
+ `INFO`: Protokolliert Informationsereignisse.
+ `DEBUG`: Protokolliert allgemeine Debugging-Ereignisse. 

Weitere Informationen zu Log4j-Protokollierungsebenen finden Sie unter [Benutzerdefinierte Protokollebenen](https://logging.apache.org/log4j/2.x/manual/customloglevels.html) in der [Apache Log4j](https://logging.apache.org/log4j/2.x/)-Dokumentation.

# Verwenden Sie benutzerdefinierte Metriken mit Amazon Managed Service für Apache Flink
<a name="monitoring-metrics-custom"></a>

Managed Service für Apache Flink stellt 19 Metriken zur Verfügung CloudWatch, darunter Metriken für Ressourcennutzung und Durchsatz. Darüber hinaus können Sie Ihre eigenen Metriken erstellen, um anwendungsspezifische Daten zu verfolgen, z. B. Verarbeitungsereignisse oder den Zugriff auf externe Ressourcen.

**Topics**
+ [Funktionsweise](#monitoring-metrics-custom-howitworks)
+ [Sehen Sie sich Beispiele für die Erstellung einer Mapping-Klasse an](#monitoring-metrics-custom-examples)
+ [Benutzerdefinierte Metriken anzeigen](#monitoring-metrics-custom-examples-viewing)

## Funktionsweise
<a name="monitoring-metrics-custom-howitworks"></a>

Benutzerdefinierte Metriken in Managed Service für Apache Flink verwenden das Apache Flink-Metriksystem. Apache Flink-Metriken haben die folgenden Attribute:
+ **Typ:** Der Typ einer Metrik beschreibt, wie Daten gemessen und gemeldet werden. Zu den verfügbaren Apache Flink-Metriktypen gehören Anzahl, Diagramm, Histogramm und Messung. Weitere Informationen zu den Metriktypen von Apache Flink finden Sie unter [Metriktypen.](https://nightlies.apache.org/flink/flink-docs-release-1.15/monitoring/metrics.html#metric-types)
**Anmerkung**  
AWS CloudWatch Metrics unterstützt den Metriktyp Histogramm Apache Flink nicht. CloudWatch kann nur Apache Flink-Metriken der Typen Count, Gauge und Meter anzeigen.
+ **Umfang: Der Geltungsbereich** einer Metrik besteht aus ihrer Kennung und einer Reihe von Schlüssel-Wert-Paaren, die angeben, wie die Metrik gemeldet werden soll. CloudWatch Die Kennung einer Metrik enthält die folgenden Elemente:
  + Einen Systembereich, der die Ebene angibt, auf der die Metrik gemeldet wird (z. B. Operator).
  + Einen Benutzerbereich, der Attribute wie Benutzervariablen oder Metrikgruppennamen definiert. Diese Attribute werden mit [https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/metrics/MetricGroup.html#addGroup-java.lang.String-java.lang.String-](https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/metrics/MetricGroup.html#addGroup-java.lang.String-java.lang.String-) oder [https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/metrics/MetricGroup.html#addGroup-java.lang.String-](https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/metrics/MetricGroup.html#addGroup-java.lang.String-) definiert.

  Weitere Informationen zu Metrikbereichen finden Sie unter [Bereich](https://nightlies.apache.org/flink/flink-docs-release-1.15/monitoring/metrics.html#scope).

Weitere Informationen zu Apache Flink-Metriken finden Sie unter [Metriken](https://nightlies.apache.org/flink/flink-docs-release-1.15/monitoring/metrics.html) in der [Apache Flink-Dokumentation](https://nightlies.apache.org/flink/flink-docs-release-1.15/).

Um eine benutzerdefinierte Metrik in Ihrem Managed Service für Apache Flink zu erstellen, können Sie von jeder Benutzerfunktion aus, die `RichFunction` erweitert, durch Aufrufen von [https://nightlies.apache.org/flink/flink-docs-release-1.15/api/java/org/apache/flink/api/common/functions/RuntimeContext.html#getMetricGroup--](https://nightlies.apache.org/flink/flink-docs-release-1.15/api/java/org/apache/flink/api/common/functions/RuntimeContext.html#getMetricGroup--) auf das Apache Flink-Metriksystem zugreifen. Diese Methode gibt ein [MetricGroup](https://nightlies.apache.org/flink/flink-docs-release-1.15/api/java/org/apache/flink/metrics/MetricGroup.html)Objekt zurück, mit dem Sie benutzerdefinierte Metriken erstellen und registrieren können. Managed Service for Apache Flink meldet alle Metriken, die mit dem Gruppenschlüssel `KinesisAnalytics` für erstellt wurden. CloudWatch Benutzerdefinierte Metriken, die Sie definieren, weisen folgende Merkmale auf:
+ Ihre benutzerdefinierte Metrik hat einen Metriknamen und einen Gruppennamen. Diese Namen müssen gemäß den Benennungsregeln von [Prometheus](https://prometheus.io/docs/instrumenting/writing_exporters/#naming) aus alphanumerischen Zeichen bestehen.
+ Attribute, die Sie im Benutzerbereich definieren (mit Ausnahme der `KinesisAnalytics` Metrikgruppe), werden als Dimensionen veröffentlicht. CloudWatch 
+ Benutzerdefinierte Metriken werden standardmäßig auf der `Application`-Ebene veröffentlicht.
+ Dimensionen (Aufgabe/Operator/Parallelismus) werden der Metrik auf der Grundlage der Überwachungsebene der Anwendung hinzugefügt. Sie legen die Überwachungsebene der Anwendung mithilfe des [MonitoringConfiguration](https://docs.aws.amazon.com/managed-flink/latest/apiv2/API_MonitoringConfiguration.html)Aktionsparameters oder des [CreateApplication[MonitoringConfigurationUpdate](https://docs.aws.amazon.com/managed-flink/latest/apiv2/API_MonitoringConfigurationUpdate.html)](https://docs.aws.amazon.com/managed-flink/latest/apiv2/API_CreateApplication.html)Aktionsparameters oder der [UpdateApplication](https://docs.aws.amazon.com/managed-flink/latest/apiv2/API_UpdateApplication.html)Aktion fest.

## Sehen Sie sich Beispiele für die Erstellung einer Mapping-Klasse an
<a name="monitoring-metrics-custom-examples"></a>

Die folgenden Codebeispiele zeigen, wie Sie eine Mapping-Klasse erstellen, die eine benutzerdefinierte Metrik erstellt und inkrementiert, und wie Sie die Mapping-Klasse in Ihrer Anwendung implementieren, indem Sie sie einem `DataStream` Objekt hinzufügen.

### Benutzerdefinierte Metrik für die Anzahl der Datensätze
<a name="monitoring-metrics-custom-examples-recordcount"></a>

Das folgende Codebeispiel zeigt, wie eine Mapping-Klasse erstellt wird, die eine Metrik erstellt, die Datensätze in einem Datenstrom zählt (dieselbe Funktionalität wie die `numRecordsIn`-Metrik):

```
    private static class NoOpMapperFunction extends RichMapFunction<String, String> {
        private transient int valueToExpose = 0;
        private final String customMetricName;
 
        public NoOpMapperFunction(final String customMetricName) {
            this.customMetricName = customMetricName;
        }
 
        @Override
        public void open(Configuration config) {
            getRuntimeContext().getMetricGroup()
                    .addGroup("KinesisAnalytics")
                    .addGroup("Program", "RecordCountApplication")
                    .addGroup("NoOpMapperFunction")
                    .gauge(customMetricName, (Gauge<Integer>) () -> valueToExpose);
        }
 
        @Override
        public String map(String value) throws Exception {
            valueToExpose++;
            return value;
        }
    }
```

Im vorherigen Beispiel wird die `valueToExpose`-Variable für jeden Datensatz, den die Anwendung verarbeitet, inkrementiert. 

Nachdem Sie Ihre Mapping-Klasse definiert haben, erstellen Sie einen anwendungsinternen Stream, der die Map implementiert:

```
DataStream<String> noopMapperFunctionAfterFilter =
    kinesisProcessed.map(new NoOpMapperFunction("FilteredRecords"));
```

Den vollständigen Code für diese Anwendung finden Sie unter [Datensatzanzahl benutzerdefinierte Metrikanwendung](https://github.com/aws-samples/amazon-managed-service-for-apache-flink-examples/tree/main/java/CustomMetrics/RecordCount).

### Benutzerdefinierte Metrik für die Anzahl der Wörter
<a name="monitoring-metrics-custom-examples-wordcount"></a>

Das folgende Codebeispiel zeigt, wie eine Mapping-Klasse erstellt wird, die eine Metrik erstellt, die Wörter in einem Datenstrom zählt:

```
private static final class Tokenizer extends RichFlatMapFunction<String, Tuple2<String, Integer>> {
     
            private transient Counter counter;
     
            @Override
            public void open(Configuration config) {
                this.counter = getRuntimeContext().getMetricGroup()
                        .addGroup("KinesisAnalytics")
                        .addGroup("Service", "WordCountApplication")
                        .addGroup("Tokenizer")
                        .counter("TotalWords");
            }
     
            @Override
            public void flatMap(String value, Collector<Tuple2<String, Integer>>out) {
                // normalize and split the line
                String[] tokens = value.toLowerCase().split("\\W+");
     
                // emit the pairs
                for (String token : tokens) {
                    if (token.length() > 0) {
                        counter.inc();
                        out.collect(new Tuple2<>(token, 1));
                    }
                }
            }
        }
```

Im vorherigen Beispiel wird die `counter`-Variable für jedes Wort, das die Anwendung verarbeitet, inkrementiert. 

Nachdem Sie Ihre Mapping-Klasse definiert haben, erstellen Sie einen anwendungsinternen Stream, der die Map implementiert:

```
// Split up the lines in pairs (2-tuples) containing: (word,1), and
// group by the tuple field "0" and sum up tuple field "1"
DataStream<Tuple2<String, Integer>> wordCountStream = input.flatMap(new Tokenizer()).keyBy(0).sum(1);
     
// Serialize the tuple to string format, and publish the output to kinesis sink
wordCountStream.map(tuple -> tuple.toString()).addSink(createSinkFromStaticConfig());
```

Den vollständigen Code für diese Anwendung finden Sie unter [Wortanzahl benutzerdefinierte Metrikanwendung](https://github.com/aws-samples/amazon-managed-service-for-apache-flink-examples/tree/main/java/CustomMetrics/WordCount).

## Benutzerdefinierte Metriken anzeigen
<a name="monitoring-metrics-custom-examples-viewing"></a>

Benutzerdefinierte Metriken für Ihre Anwendung werden in der CloudWatch Metrikkonsole im **AWS/KinesisAnalytics**Dashboard unter der Metrikgruppe **Anwendung** angezeigt. 

# Verwenden Sie CloudWatch Alarme mit Amazon Managed Service für Apache Flink
<a name="monitoring-metrics-alarms"></a>

Mithilfe von Amazon CloudWatch Metric Alarms beobachten Sie eine CloudWatch Metrik über einen von Ihnen angegebenen Zeitraum. Der Alarm führt eine oder mehrere Aktionen durch, die vom Wert der Metrik oder des Ausdrucks im Vergleich zu einem Schwellenwert in einer Reihe von Zeiträumen abhängt. Eine Aktion könnte beispielsweise der Versand einer Benachrichtigung an ein Amazon Simple Notification Service (Amazon SNS)-Thema sein. 

Weitere Informationen zu CloudWatch Alarmen finden Sie unter [Amazon CloudWatch Alarms verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html).

## Lesen Sie die empfohlenen Alarme
<a name="monitoring-metrics-alarms-recommended"></a>

Dieser Abschnitt enthält die empfohlenen Alarme für die Überwachung von Managed Service für Apache Flink-Anwendungen.

Die Tabelle beschreibt die empfohlenen Alarme und enthält die folgenden Spalten:
+ **Metrikausdruck:** Die Metrik oder der Metrikausdruck, der anhand des Schwellenwerts getestet werden soll.
+ **Statistik:** Die Statistik, die zur Überprüfung der Metrik verwendet wird, z. B. **Durchschnitt**.
+ **Schwellenwert:** Für die Verwendung dieses Alarms müssen Sie einen Schwellenwert festlegen, der die Grenze der erwarteten Anwendungsleistung definiert. Sie müssen diesen Schwellenwert ermitteln, indem Sie Ihre Anwendung unter normalen Bedingungen überwachen.
+ **Beschreibung:** Ursachen, die diesen Alarm auslösen könnten, und mögliche Lösungen für diesen Zustand.


| Metrikausdruck | Statistik | Threshold | Description | 
| --- |--- |--- |--- |
| downtime> 0 | Durchschnitt | 0 |  Eine Ausfallzeit von mehr als Null bedeutet, dass die Anwendung ausgefallen ist. Wenn der Wert größer als 0 ist, verarbeitet die Anwendung keine Daten. Für alle Anwendungen empfohlen. Die Downtime Metrik misst die Dauer eines Ausfalls. Eine Ausfallzeit von mehr als Null bedeutet, dass die Anwendung ausgefallen ist. Informationen zur Problembehandlung finden Sie unter[Die Anwendung wird neu gestartet](troubleshooting-rt-restarts.md). | 
| RATE (numberOfFailedCheckpoints)> 0 | Durchschnitt | 0 | Diese Metrik zählt die Anzahl der fehlgeschlagenen Checkpoints seit dem Start der Anwendung. Je nach Anwendung kann es toleriert werden, dass Prüfpunkte gelegentlich fehlschlagen. Wenn Prüfpunkte jedoch regelmäßig ausfallen, ist die Anwendung wahrscheinlich fehlerhaft und benötigt weitere Aufmerksamkeit. Wir empfehlen, RATE (numberOfFailedCheckpoints) so zu überwachen, dass der Alarm auf dem Gradienten und nicht auf absoluten Werten basiert. Für alle Anwendungen empfohlen. Verwenden Sie diese Metrik, um den Zustand der Anwendung und den Fortschritt der Checkpoints zu überwachen. Die Anwendung speichert Statusdaten an Checkpoints, wenn sie fehlerfrei ist. Checkpointing kann aufgrund von Timeouts fehlschlagen, wenn die Anwendung bei der Verarbeitung der Eingabedaten keine Fortschritte macht. Informationen zur Problembehandlung finden Sie unter. [Beim Checkpointing kommt es zu einer Zeitüberschreitung](troubleshooting-chk-timeout.md) | 
| Operator.numRecordsOutPerSecond< Schwellenwert | Durchschnitt | Die Mindestanzahl von Datensätzen, die unter normalen Bedingungen von der Anwendung gesendet werden.  | Für alle Anwendungen empfohlen. Ein Unterschreiten dieses Schwellenwerts kann darauf hindeuten, dass die Anwendung bei den Eingabedaten nicht die erwarteten Fortschritte erzielt. Informationen zur Problembehandlung finden Sie unter[Der Durchsatz ist zu langsam](troubleshooting-rt-throughput.md). | 
| records\$1lag\$1max\$1millisbehindLatest> Schwellenwert | Maximum | Die maximal zu erwartende Latenz unter normalen Bedingungen. | Wenn die Anwendung viel Kinesis oder Kafka verbraucht, geben diese Metriken an, ob die Anwendung hinterherhinkt und skaliert werden muss, um mit der aktuellen Auslastung Schritt zu halten. Dies ist eine gute generische Metrik, die für alle Arten von Anwendungen leicht nachzuverfolgen ist. Sie kann jedoch nur für reaktive Skalierung verwendet werden, d. h. wenn die Anwendung bereits ins Hintertreffen geraten ist. Für alle Anwendungen empfohlen. Verwenden Sie die records\$1lag\$1max Metrik für eine Kafka-Quelle oder die millisbehindLatest für eine Kinesis-Stream-Quelle. Eine Überschreitung dieses Schwellenwerts kann darauf hindeuten, dass die Anwendung bei den Eingabedaten nicht die erwarteten Fortschritte erzielt. Informationen zur Problembehandlung finden Sie unter[Der Durchsatz ist zu langsam](troubleshooting-rt-throughput.md). | 
| lastCheckpointDuration> Schwellenwert | Maximum | Die maximal zu erwartende Checkpoint-Dauer unter normalen Bedingungen. | Überwacht, wie viele Daten im Status gespeichert sind und wie lange es dauert, bis ein Checkpoint abgeschlossen ist. Wenn die Anzahl der Prüfpunkte zunimmt oder lange dauert, verbringt die Anwendung kontinuierlich Zeit mit Prüfpunkten und hat weniger Zyklen für die eigentliche Verarbeitung. An manchen Stellen können Prüfpunkte zu groß werden oder so lange dauern, dass sie ausfallen. Neben der Überwachung absoluter Werte sollten Kunden auch erwägen, die Änderungsrate mit RATE(lastCheckpointSize) und RATE(lastCheckpointDuration) zu überwachen. Wenn der Wert lastCheckpointDuration kontinuierlich ansteigt, kann ein Überschreiten dieses Schwellenwerts darauf hinweisen, dass die Anwendung bei den Eingabedaten nicht die erwarteten Fortschritte erzielt oder dass Probleme mit dem Zustand der Anwendung vorliegen, wie z. B. Gegendruck. Informationen zur Problembehandlung finden Sie unter[Unbegrenztes Staatswachstum](troubleshooting-rt-stateleaks.md). | 
| lastCheckpointSize> Schwellenwert | Maximum | Die maximal zu erwartende Checkpoint-Größe unter normalen Bedingungen. | Überwacht, wie viele Daten im Status gespeichert sind und wie lange es dauert, bis ein Checkpoint abgeschlossen ist. Wenn die Anzahl der Prüfpunkte zunimmt oder lange dauert, verbringt die Anwendung kontinuierlich Zeit mit Prüfpunkten und hat weniger Zyklen für die eigentliche Verarbeitung. An manchen Stellen können Prüfpunkte zu groß werden oder so lange dauern, dass sie ausfallen. Neben der Überwachung absoluter Werte sollten Kunden auch erwägen, die Änderungsrate mit RATE(lastCheckpointSize) und RATE(lastCheckpointDuration) zu überwachen. Wenn der Wert lastCheckpointSize kontinuierlich ansteigt, kann ein Überschreiten dieses Schwellenwerts darauf hinweisen, dass die Anwendung Zustandsdaten sammelt. Wenn die Zustandsdaten zu groß werden, kann der Anwendung bei der Wiederherstellung von einem Checkpoint der Speicherplatz ausgehen, oder die Wiederherstellung von einem Checkpoint kann zu lange dauern. Informationen zur Problembehandlung finden Sie unter. [Unbegrenztes Staatswachstum](troubleshooting-rt-stateleaks.md) | 
| heapMemoryUtilization> Schwellenwert | Maximum | Dies gibt einen guten Hinweis auf die allgemeine Ressourcenauslastung der Anwendung und kann für eine proaktive Skalierung verwendet werden, sofern die Anwendung nicht I/O gebunden ist. Die maximale heapMemoryUtilization Größe, die unter normalen Bedingungen erwartet wird, mit einem empfohlenen Wert von 90 Prozent. | Sie können diese Metrik verwenden, um die maximale Speicherauslastung von Task-Managern in der gesamten Anwendung zu überwachen. Wenn die Anwendung diesen Schwellenwert erreicht, müssen Sie mehr Ressourcen bereitstellen. Sie tun dies, indem Sie die automatische Skalierung aktivieren oder die Anwendungsparallelität erhöhen. Weitere Informationen zur Erhöhung der Ressourcen finden Sie unter. [Implementieren Sie Anwendungsskalierung](how-scaling.md) | 
| cpuUtilization> Schwellenwert | Maximum | Dies gibt einen guten Hinweis auf die allgemeine Ressourcenauslastung der Anwendung und kann für eine proaktive Skalierung verwendet werden, sofern die Anwendung nicht I/O gebunden ist. Die maximale cpuUtilization Größe, die unter normalen Bedingungen erwartet wird, mit einem empfohlenen Wert von 80 Prozent. | Sie können diese Metrik verwenden, um die maximale CPU-Auslastung von Task-Managern in der gesamten Anwendung zu überwachen. Wenn die Anwendung diesen Schwellenwert erreicht, müssen Sie mehr Ressourcen bereitstellen. Dazu aktivieren Sie die automatische Skalierung oder erhöhen die Anwendungsparallelität. Weitere Informationen zur Erhöhung der Ressourcen finden Sie unter. [Implementieren Sie Anwendungsskalierung](how-scaling.md) | 
| threadsCount> Schwellenwert | Maximum | Die maximal zu erwartende threadsCount Größe unter normalen Bedingungen. | Sie können diese Metrik verwenden, um in Task-Managern in der gesamten Anwendung nach Thread-Leaks Ausschau zu halten. Wenn diese Metrik diesen Schwellenwert erreicht, überprüfen Sie Ihren Anwendungscode auf Threads, die erstellt wurden, ohne geschlossen zu werden. | 
| (oldGarbageCollectionTime \$1 100)/60\$1000 over 1 min period')> Schwellenwert | Maximum | Die maximale erwartete oldGarbageCollectionTime Dauer. Wir empfehlen, einen Schwellenwert so festzulegen, dass die typische Garbage-Collection-Zeit 60 Prozent des angegebenen Schwellenwerts beträgt. Der richtige Schwellenwert für Ihre Anwendung kann jedoch variieren. | Wenn diese Kennzahl kontinuierlich steigt, kann dies darauf hindeuten, dass in den Task-Managern der gesamten Anwendung ein Speicherverlust vorliegt. | 
| RATE(oldGarbageCollectionCount) > Schwellenwert | Maximum | Das oldGarbageCollectionCount unter normalen Bedingungen erwartete Maximum. Der richtige Schwellenwert für Ihre Anwendung wird variieren. | Wenn diese Kennzahl kontinuierlich steigt, kann dies darauf hindeuten, dass in den Task-Managern der gesamten Anwendung ein Speicherverlust vorliegt. | 
| Operator.currentOutputWatermark - Operator.currentInputWatermark > Schwellenwert | Minimum | Der minimale zu erwartende Anstieg des Wasserzeichens unter normalen Bedingungen. Der richtige Schwellenwert für Ihre Anwendung wird variieren. | Wenn diese Kennzahl kontinuierlich steigt, kann dies darauf hindeuten, dass entweder die Anwendung immer ältere Ereignisse verarbeitet oder dass eine vorgelagerte Unteraufgabe seit immer längerer Zeit kein Wasserzeichen mehr gesendet hat. | 