Metriken und Dimensionen in Managed Service für Apache Flink - Managed Service für Apache Flink

Amazon Managed Service für Apache Flink war zuvor als Amazon Kinesis Data Analytics für Apache Flink bekannt.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Metriken und Dimensionen in Managed Service für Apache Flink

Wenn Ihr Managed Service für Apache Flink eine Datenquelle verarbeitet, meldet Managed Service for Apache Flink die folgenden Metriken und Dimensionen an Amazon. CloudWatch

Anwendungsmetriken

Metrik Einheit Beschreibung Level Nutzungshinweise
backPressuredTimeMsPerSecond* Millisekunden Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde unter Gegendruck gesetzt wird. Aufgabe, Operator, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren.

busyTimeMsPerSecond* Millisekunden Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde beschäftigt (weder inaktiv noch unter Gegendruck gesetzt) ist. Kann NaN sein, wenn der Wert nicht berechnet werden konnte. Aufgabe, Operator, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren.

cpuUtilization Prozentsatz Prozentsatz der CPU-Auslastung in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. Anwendung Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale CPU-Auslastung in Ihrer Anwendung zu überwachen. Die CPUUtilization Metrik berücksichtigt nur die CPU-Auslastung des TaskManager JVM-Prozesses, der im Container ausgeführt wird.
containerCPUUtilization Prozentsatz Gesamtprozentsatz der CPU-Auslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. Anwendung

Sie wird pro Container wie folgt berechnet:

Gesamt-CPU-Zeit (in Sekunden), die vom Container verbraucht wird * 100/Container-CPU-Limit (in CPUs /Sekunden)

Die CPUUtilization Metrik berücksichtigt nur die CPU-Auslastung des TaskManager JVM-Prozesses, der im Container ausgeführt wird. Es gibt andere Komponenten, die außerhalb der JVM innerhalb desselben Containers ausgeführt werden. Die containerCPUUtilization-Metrik gibt Ihnen ein vollständigeres Bild, einschließlich aller Prozesse im Hinblick auf die CPU-Auslastung im Container und die daraus resultierenden Ausfälle.

containerMemoryUtilization Prozentsatz Gesamtprozentsatz der Speicherauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. Anwendung

Sie wird pro Container wie folgt berechnet:

Speichernutzung des Containers (Byte) * 100/Container-Speicherlimit gemäß der Pod-Bereitstellungsspezifikation (in Byte)

Die ManagedMemoryUtilzations Metriken HeapMemoryUtilization und berücksichtigen nur bestimmte Speichermetriken wie die Heap-Speicherauslastung von TaskManager JVM oder Managed Memory (Speichernutzung außerhalb von JVM für native Prozesse wie RocksDB State Backend). Die containerMemoryUtilization-Metrik gibt Ihnen ein vollständigeres Bild, da sie den festgelegten Arbeitsspeicher mit einbezieht, wodurch die gesamte Speichererschöpfung besser erfasst werden kann. Wenn es erschöpft ist, führt es dazu, dass der Pod kaputt geht. Out of Memory Error TaskManager

containerDiskUtilization Prozentsatz Gesamtprozentsatz der Festplattenauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von einer Minute 2 x fünf Stichproben dieser Metrik. Anwendung

Sie wird pro Container wie folgt berechnet:

Festplattennutzung in Byte * 100/Festplattenlimit für Container in Byte

Bei Containern steht dies für die Nutzung des Dateisystems, auf dem das Root-Volume des Containers eingerichtet ist.

currentInputWatermark Millisekunden Das letzte Wasserzeichen, das diese Datei erhalten hat application/operator/task/thread Anwendung, Operator, Aufgabe, Parallelität Dieser Datensatz wird nur für Dimensionen mit zwei Eingaben ausgegeben. Dies ist der Mindestwert der zuletzt empfangenen Wasserzeichen.
currentOutputWatermark Millisekunden Das letzte Wasserzeichen, das dadurch application/operator/task/thread ausgegeben wurde Anwendung, Operator, Aufgabe, Parallelität
downtime Millisekunden Bei Aufträgen, die sich derzeit in einer Situation befinden, in der ein Fehler aufgetreten ist oder der wiederhergestellt wird, ist dies die Zeit, die während dieses Ausfalls verstrichen ist. Anwendung Diese Kennzahl misst die Zeit, die verstrichen ist, während ein Job ausfällt oder wiederhergestellt wird. Diese Metrik gibt 0 für laufende Jobs und -1 für abgeschlossene Jobs zurück. Wenn diese Metrik nicht 0 oder -1 ist, bedeutet dies, dass der Apache Flink-Job für die Anwendung nicht ausgeführt werden konnte.
fullRestarts Anzahl Gibt an, wie oft dieser Job seit seiner Übermittlung vollständig neu gestartet wurde. Mit dieser Metrik werden keine detaillierten Neustarts gemessen. Anwendung Sie können diese Metrik verwenden, um den allgemeinen Zustand von Anwendungen zu bewerten. Neustarts können während der internen Wartung durch Managed Service für Apache Flink erfolgen. Neustarts, die höher als normal sind, können auf ein Problem mit der Anwendung hinweisen.
heapMemoryUtilization Prozentsatz Gesamtauslastung des Heap-Speichers in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. Anwendung Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale Heap-Speicherauslastung in Ihrer Anwendung zu überwachen. Das HeapMemoryUtilization einzige Konto berücksichtigt bestimmte Speichermetriken wie die Heap-Speicherauslastung von TaskManager JVM.
idleTimeMsPerSecond* Millisekunden Die Zeit (in Millisekunden), in der sich diese Task oder dieser Operator pro Sekunde im Leerlauf befindet (keine zu verarbeitenden Daten hat). Bei der Leerlaufzeit wird die Zeit nicht berücksichtigt, in der Gegendruck ausgeübt wird, wenn also die Aufgabe unter Gegendruck steht, handelt es sich nicht um Inaktivität. Aufgabe, Operator, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren.

lastCheckpointSize Bytes Die Gesamtgröße des letzten Prüfpunkts Anwendung Sie können diese Metrik verwenden, um die Speicherauslastung laufender Anwendungen zu ermitteln.

Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass.

lastCheckpointDuration Millisekunden Die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen Anwendung Diese Kennzahl misst die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen. Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass. In einigen Fällen können Sie dieses Problem beheben, indem Sie die Prüfpunktprüfung deaktivieren.
managedMemoryUsed* Bytes Die derzeit verwendete verwaltete Speichermenge. Anwendung, Operator, Aufgabe, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar.

managedMemoryTotal* Bytes Die Gesamtgröße des verwalteten Speichers. Anwendung, Operator, Aufgabe, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. Die ManagedMemoryUtilzations-Metrik berücksichtigt nur bestimmte Speichermetriken wie Managed Memory (Speichernutzung außerhalb von JVM für native Prozesse wie RocksDB State Backend)

managedMemoryUtilization* Prozentsatz Abgeleitet von/ managedMemoryUsedmanagedMemoryTotal Anwendung, Operator, Aufgabe, Parallelität

*Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird.

Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar.

numberOfFailedCheckpoints Anzahl Gibt an, wie oft die Prüfpunktüberprüfung fehlgeschlagen ist. Anwendung Sie können diese Metrik verwenden, um den Zustand und den Fortschritt von Anwendungen zu überwachen. Prüfpunkte können aufgrund von Anwendungsproblemen wie Durchsatz- oder Berechtigungsprobleme fehlschlagen.
numRecordsIn* Anzahl Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe erhalten hat. Anwendung, Operator, Aufgabe, Parallelität

*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:

  • Wählen Sie die Metrik auf der richtigen Ebene aus. Wenn Sie die Metrik für einen Operator verfolgen, müssen Sie die entsprechenden Operator-Metriken auswählen.

  • Da Managed Service für Apache Flink 4 Metrik-Snapshots pro Minute erstellt, sollte die folgende Metrikmathematik verwendet werden: m1/4, wobei m1 die SUM-Statistik über einen Zeitraum (Sekunde/Minute) ist

Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe empfangen hat.

numRecordsInPerSecond* Anzahl/Sekunde Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde erhalten hat. Anwendung, Operator, Aufgabe, Parallelität

*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:

  • Wählen Sie die Metrik auf der richtigen Ebene aus. Wenn Sie die Metrik für einen Operator verfolgen, müssen Sie die entsprechenden Operator-Metriken auswählen.

  • Da Managed Service für Apache Flink 4 Metrik-Snapshots pro Minute erstellt, sollte die folgende Metrikmathematik verwendet werden: m1/4, wobei m1 die SUM-Statistik über einen Zeitraum (Sekunde/Minute) ist

Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde empfangen hat.

numRecordsOut* Anzahl Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe ausgegeben hat. Anwendung, Operator, Aufgabe, Parallelität

*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:

  • Wählen Sie die Metrik auf der richtigen Ebene aus. Wenn Sie die Metrik für einen Operator verfolgen, müssen Sie die entsprechenden Operator-Metriken auswählen.

  • Da Managed Service für Apache Flink 4 Metrik-Snapshots pro Minute erstellt, sollte die folgende Metrikmathematik verwendet werden: m1/4, wobei m1 die SUM-Statistik über einen Zeitraum (Sekunde/Minute) ist

Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe ausgegeben hat.

numLateRecordsDropped* Anzahl Anwendung, Operator, Aufgabe, Parallelität

*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:

  • Wählen Sie die Metrik auf der richtigen Ebene aus. Wenn Sie die Metrik für einen Operator verfolgen, müssen Sie die entsprechenden Operator-Metriken auswählen.

  • Da Managed Service für Apache Flink 4 Metrik-Snapshots pro Minute erstellt, sollte die folgende Metrikmathematik verwendet werden: m1/4, wobei m1 die SUM-Statistik über einen Zeitraum (Sekunde/Minute) ist

Die Anzahl der Datensätze, die dieser Operator oder diese Aufgabe aufgrund einer verspäteten Ankunft gelöscht hat.

numRecordsOutPerSecond* Anzahl/Sekunde Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde ausgegeben hat. Anwendung, Operator, Aufgabe, Parallelität

*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:

  • Wählen Sie die Metrik auf der richtigen Ebene aus. Wenn Sie die Metrik für einen Operator verfolgen, müssen Sie die entsprechenden Operator-Metriken auswählen.

  • Da Managed Service für Apache Flink 4 Metrik-Snapshots pro Minute erstellt, sollte die folgende Metrikmathematik verwendet werden: m1/4, wobei m1 die SUM-Statistik über einen Zeitraum (Sekunde/Minute) ist

Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde ausgegeben hat.

oldGenerationGCCount Anzahl Die Gesamtzahl der alten Garbage-Collection-Vorgänge, die in allen Task-Managern stattgefunden haben. Anwendung
oldGenerationGCTime Millisekunden Die Gesamtzeit, die für die Durchführung alter Garbage-Collection-Vorgänge aufgewendet wurde. Anwendung Sie können diese Metrik verwenden, um die Summe, den Durchschnitt und die maximale Zeit für die Garbage Collection zu überwachen.
threadCount Anzahl Die Gesamtzahl der von der Anwendung verwendeten Live-Threads. Anwendung Diese Metrik misst die Anzahl der Threads, die vom Anwendungscode verwendet werden. Dies ist nicht dasselbe wie Anwendungsparallelität.
uptime Millisekunden Die Zeit, zu der der Job ohne Unterbrechung ausgeführt wurde. Anwendung Sie können diese Metrik verwenden, um festzustellen, ob ein Job erfolgreich ausgeführt wird. Diese Metrik gibt -1 für abgeschlossene Jobs zurück.
KPUs* Anzahl Die Gesamtzahl der von der Anwendung KPUs verwendeten. Anwendung

*Für diese Kennzahl wird eine Stichprobe pro Abrechnungszeitraum (eine Stunde) verwendet. Verwenden Sie MAX oder AVG KPUs über einen Zeitraum von mindestens einer (1) Stunde, um die Anzahl der Ereignisse im Laufe der Zeit zu visualisieren.

Die KPU-Anzahl beinhaltet die orchestration KPU. Weitere Informationen finden Sie unter Preise für Managed Service for Apache Flink.

Metriken des Kinesis Data Streams Streams-Konnektors

AWS gibt alle Datensätze für Kinesis Data Streams zusätzlich zu den folgenden aus:

Metrik Einheit Beschreibung Level Nutzungshinweise
millisbehindLatest Millisekunden Die Anzahl der Millisekunden, die der Verbraucher hinter der Spitze des Streams zurückliegt. Dies zeigt an, wie weit der Verbraucher hinter der aktuellen Zeit zurückliegt. Anwendung (für Stream), Parallelismus (für) ShardId
  • Der Wert 0 gibt an, dass die Datenverarbeitung aktuell ist und dass zurzeit keine neuen zu verarbeitenden Datensätze vorhanden sind. Die Metrik eines bestimmten Shards kann durch den Stream-Namen und die Shard-ID angegeben werden.

  • Ein Wert von -1 gibt an, dass der Service noch keinen Wert für die Metrik gemeldet hat.

bytesRequestedPerFetch Bytes Die in einem einzigen Aufruf an getRecords angeforderten Bytes. Anwendung (für Stream), Parallelität (für) ShardId

Amazon MSK-Connector-Metriken

AWS gibt alle Datensätze für Amazon MSK zusätzlich zu den folgenden aus:

Metrik Einheit Beschreibung Level Nutzungshinweise
currentoffsets N/A Der aktuelle Lese-Offset des Verbrauchers für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. Anwendung (für Thema), Parallelität (für) PartitionId
commitsFailed N/A Die Gesamtzahl der Fehler beim Offset-Commit an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind. Anwendung, Operator, Aufgabe, Parallelität Das Zurückschreiben von Offsets an Kafka ist nur ein Mittel, um den Verbraucherfortschritt aufzudecken. Ein Commit-Fehler beeinträchtigt also nicht die Integrität der Prüfpunkt-Partitions-Offsets von Flink.
commitsSucceeded N/A Die Gesamtzahl erfolgreichen Offset-Commits an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind. Anwendung, Operator, Aufgabe, Parallelität
committedoffsets N/A Die letzten erfolgreich an Kafka übergebenen Offsets für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. Anwendung (für Thema), Parallelität (für) PartitionId
records_lag_max Anzahl Die maximale Verzögerung in Bezug auf die Anzahl der Datensätze für jede Partition in diesem Fenster Anwendung, Operator, Aufgabe, Parallelität
bytes_consumed_rate Bytes Die durchschnittliche Anzahl von Bytes, die pro Sekunde für ein Thema verbraucht werden Anwendung, Operator, Aufgabe, Parallelität

Apache Zeppelin-Metriken

Gibt für AWS Studio-Notebooks die folgenden Metriken auf Anwendungsebene aus:KPUs,,cpuUtilization, heapMemoryUtilizationoldGenerationGCTime, oldGenerationGCCount und. threadCount Darüber hinaus werden die in der folgenden Tabelle aufgeführten Metriken auch auf Anwendungsebene ausgegeben.

Metrik Einheit Beschreibung Prometheus-Name
zeppelinCpuUtilization Prozentsatz Gesamtprozentsatz der CPU-Auslastung auf dem Apache Zeppelin-Server. process_cpu_usage
zeppelinHeapMemoryUtilization Prozentsatz Gesamtprozentsatz der Heap-Speicherauslastung für den Apache Zeppelin-Server. jvm_memory_used_bytes
zeppelinThreadCount Anzahl Die Gesamtzahl der vom Apache Zeppelin-Server verwendeten Live-Threads. jvm_threads_live_threads
zeppelinWaitingJobs Anzahl Die Anzahl der Apache Zeppelin-Jobs in der Warteschlange, die auf einen Thread warten. jetty_threads_jobs
zeppelinServerUptime Sekunden Die Gesamtzeit, in der der Server betriebsbereit war. process_uptime_seconds