Metriken – Übersicht AWS Glue-Metriken Dimensionen für AWS Glue-Metriken

Überwachung von AWS Glue mit Amazon CloudWatch-Metriken

Sie können AWS Glue-Operationen mit dem AWS Glue-Auftrags-Profiler profilieren und überwachen. Er erfasst Rohdaten aus AWS Glue-Aufträgen und verarbeitet sie in lesbare Nahezu-Echtzeitmetriken, die in Amazon CloudWatch gespeichert werden. Diese Statistiken werden in CloudWatch gespeichert und aggregiert, sodass Sie auf Verlaufsinformationen zugreifen können, um einen besseren Überblick über die Leistung Ihrer Anwendung zu erhalten.

Anmerkung

Es können zusätzliche Gebühren anfallen, wenn Sie Job-Metriken aktivieren und benutzerdefinierte CloudWatch-Metriken erstellt werden. Weitere Informationen hierzu finden Sie unter Amazon CloudWatch – Preise.

AWS Glue-Metriken – Übersicht

AWS Glue sendet bei Interaktionen Metriken an CloudWatch. Sie können diese Metriken mit der AWS Glue-Konsole (bevorzugte Methode), im CloudWatch-Konsolen-Dashboard oder im AWS Command Line Interface (AWS CLI) anzeigen.

Anzeige von Metriken über das Dashboard der AWS Glue-Konsole

Sie können zusammenfassende oder detaillierte Diagramme von Metriken für einen Auftrag oder detaillierte Diagramme für eine Auftragsausführung anzeigen.

Melden Sie sich bei der AWS Management Console an und öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/.
Wählen Sie im Navigationsbereich Überwachung der Auftragsausführung aus.
Wählen Sie unter Auftragsausführungen die Option Aktionen, um einen gerade ausgeführten Auftrag anzuhalten, einen Auftrag anzuzeigen oder ein Auftragslesezeichen zurückzuspulen.
Wählen Sie einen Auftrag aus und wählen Sie dann Details zur Ausführung anzeigen, um zusätzliche Informationen zur Auftragsausführung anzuzeigen.

Metriken mit dem CloudWatch-Konsolen-Dashboard anzeigen:

Metriken werden zunächst nach dem Service-Namespace und anschließend nach den verschiedenen Dimensionskombinationen in den einzelnen Namespaces gruppiert.

Öffnen Sie die CloudWatch-Konsole unter https://console.aws.amazon.com/cloudwatch/.
Wählen Sie im Navigationsbereich Metriken aus.
Wählen Sie den Namespace Glue aus.

So zeigen Sie Metriken mit der a AWS CLI

Geben Sie als Eingabeaufforderung den folgenden Befehl ein.
```
aws cloudwatch list-metrics --namespace Glue
```

AWS Glue meldet alle 30 Sekunden Metriken an CloudWatch und die CloudWatch-Metrik-Dashboards sind so konfiguriert, dass sie diese minütlich anzeigen. Die AWS Glue-Metriken stellen Deltawerte gegenüber den zuvor gemeldeten Werten dar. Gegebenenfalls aggregieren (summieren) die Metrik-Dashboards die 30-Sekunden-Wertezu einem Wert für die gesamte vergangene Minute.

Verhalten von AWS Glue-Metriken für Spark-Aufträge

AWS Glue-Metriken werden bei der Initialisierung eines GlueContext in einem Skript aktiviert und in der Regel nur am Ende einer Apache-Spark-Aufgabe aktualisiert. Sie stellen die aggregierten Werte in allen abgeschlossenen Spark-Aufgaben dar.

Die Spark-Metriken, die AWS Glue an CloudWatch übergibt, sind dagegen üblicherweise Absolutbeträge, die den Status zum Zeitpunkt der Meldung angeben. AWS Glue meldet diese Werte alle 30 Sekunden an CloudWatch und die Metrik-Dashboards zeigen normalerweise den Durchschnittswert über die Datenpunkte an, die in der letzten Minute empfangen wurden.

Allen AWS Glue-Metriknamen wird eines der folgenden Präfixe vorangestellt:

glue.driver. – Metriken, deren Namen mit diesem Präfix beginnen, stellen entweder AWS Glue-Metriken dar, die von allen Executors beim Spark-Treiber aggregiert werden, oder Spark-Metriken, die dem Spark-Treiber entsprechen.
glue.executorId. – Die executorId ist die Nummer eines bestimmten Spark-Executor. Der Wert entspricht den Executors, die in den Protokollen aufgeführt sind.
glue.ALL. - Metriken, deren Namen mit diesem Präfix beginnen, aggregierte Werte aus allen Spark Executors.

AWS Glue-Metriken

AWS Glue stellt die folgenden Metriken dar und sendet sie alle 30 Sekunden an CloudWatch. Das Metrik-Dashboard von AWS Glue meldet sie einmal pro Minute:

Metrik Beschreibung

Metrik	Beschreibung
`glue.driver.aggregate.bytesRead`	Die Anzahl der Bytes, die von allen abgeschlossenen Spark-Aufgaben von allen Datenquellen gelesen und in allen Executors ausgeführt werden. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Byte Kann für die Überwachung folgender Aspekte verwendet werden: Gelesene Bytes. Fortschritt des Auftrags. JDBC-Datenquellen. Probleme mit Lesezeichen. Abweichung über Auftragsausführungen hinweg. Diese Metrik kann genauso verwendet werden wie die `glue.ALL.s3.filesystem.read_bytes`-Metrik mit dem Unterschied, dass diese Metrik am Ende einer Spark-Aufgabe aktualisiert wird und auch Nicht-S3-Datenquellen erfasst.
`glue.driver.aggregate.elapsedTime`	Die ETL verstrichene Zeit in Millisekunden (schließt die Bootstrap-Zeiten des Auftrags nicht ein). Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Millisekunden Kann verwendet werden, um zu ermitteln, wie lange eine Auftragsausführung im Durchschnitt dauert. Einige Möglichkeiten, die Daten zu verwenden: Stellen Sie Alarme für Straggler ein. Messen Sie die Abweichung über Auftragsausführungen hinweg.
`glue.driver.aggregate.numCompletedStages`	Die Anzahl der abgeschlossenen Phasen im Auftrag. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Fortschritt des Auftrags. Zeitachse pro Stufe der Auftragsausführung, wenn mit anderen Metriken korreliert. Einige Möglichkeiten, die Daten zu verwenden: Identifizieren Sie anspruchsvolle Phasen bei der Ausführung eines Auftrags. Stellen Sie Alarme für korrelierte Spikes (anspruchsvolle Phasen) über Auftragsausführungen hinweg ein.
`glue.driver.aggregate.numCompletedTasks`	Die Anzahl der abgeschlossenen Aufgaben im Auftrag. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Fortschritt des Auftrags. Parallelität innerhalb einer Phase.
`glue.driver.aggregate.numFailedTasks`	Die Anzahl der fehlgeschlagenen Aufgaben. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Datenanomalien, die zum Scheitern von Aufträgen führen. Clusteranomalien, die zum Scheitern von Aufträgen führen. Skriptanomalien, die zum Scheitern von Aufträgen führen. Die Daten können verwendet werden, um Alarme für erhöhte Ausfälle einzustellen, die Anomalien in Daten, Clustern oder Skripten andeuten könnten.
`glue.driver.aggregate.numKilledTasks`	Anzahl der abgeschlossenen Aufgaben. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Anomalien in der Datenverzerrung, die zu Exceptions (OOMs) führen, die Aufgaben beenden. Skriptanomalien in der Datenverzerrung, die zu Exceptions (OOMs) führen, die Aufgaben beenden. Einige Möglichkeiten, die Daten zu verwenden: Stellen Sie Alarme für erhöhte Ausfälle ein, die Datenanomalien anzeigen. Stellen Sie Alarme für erhöhte Ausfälle ein, die Clusteranomalien anzeigen. Stellen Sie Alarme für erhöhte Ausfälle ein, die Skriptanomalien anzeigen.
`glue.driver.aggregate.recordsRead`	Die Anzahl der Datensätze, die von allen abgeschlossenen Spark-Aufgaben von allen Datenquellen gelesen und in allen Executors ausgeführt werden. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Gelesene Datensätze. Fortschritt des Auftrags. JDBC-Datenquellen. Probleme mit Lesezeichen. Verzerrung in Auftragsausführungen über mehrere Tage. Diese Metrik kann genauso verwendet werden wie die `glue.ALL.s3.filesystem.read_bytes`-Metrik mit dem Unterschied, dass diese Metrik am Ende einer Spark-Aufgabe aktualisiert wird.
`glue.driver.aggregate.shuffleBytesWritten`	Die Anzahl der von allen Executors geschriebenen Bytes, um ihre Daten zu mischen (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der Bytes, die in der vorherigen Minute für diesen Zweck geschrieben wurden). Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Byte Kann verwendet werden, um Folgendes zu überwachen: Datenmischung in Aufträgen (große Joins, GroupBy, Repartition, Coalesce). Einige Möglichkeiten, die Daten zu verwenden: Repartitionieren oder Dekomprimieren Sie große Eingabedateien vor der weiteren Verarbeitung. Repartitionieren Sie Daten einheitlicher, um Hotkeys zu vermeiden. Vorfiltern von Daten vor Joins oder GroupBy-Operationen.
`glue.driver.aggregate.shuffleLocalBytesRead`	Die Anzahl der von allen Executors gelesenen Bytes, um ihre Daten zu mischen (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der Bytes, die in der vorherigen Minute für diesen Zweck gelesen wurden). Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet. Einheit: Byte Kann verwendet werden, um Folgendes zu überwachen: Datenmischung in Aufträgen (große Joins, GroupBy, Repartition, Coalesce). Einige Möglichkeiten, die Daten zu verwenden: Repartitionieren oder Dekomprimieren Sie große Eingabedateien vor der weiteren Verarbeitung. Repartitionieren Sie Daten einheitlicher mit Hotkeys. Vorfiltern von Daten vor Joins oder GroupBy-Operationen.
`glue.driver.BlockManager.disk.diskSpaceUsed_MB`	Die Anzahl der Megabyte an Speicherplatz, die für alle Executoren verwendet werden. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird. Einheit: Megabyte Kann für die Überwachung folgender Aspekte verwendet werden: Festplattenspeicher, der für Blöcke verwendet wird, die zwischengespeicherte RDD-Partitionen darstellen. Festplattenspeicher, der für Blöcke verwendet wird, die Zwischenausgaben für Shuffle darstellen. Festplattenspeicher, der für Blöcke verwendet wird, die Broadcasts darstellen. Einige Möglichkeiten, die Daten zu verwenden: Identifizieren von Auftragsfehlern aufgrund erhöhter Festplattenauslastung. Identifizieren Sie große Partitionen, die zum Fluten oder Mischen führen. Erhöhen Sie die bereitgestellte DPU-Kapazität, um diese Probleme zu beheben.
`glue.driver.ExecutorAllocationManager.executors.numberAllExecutors`	Die Anzahl der aktiven Auftrags-Executors. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Auftragsaktivität. Straggling-Executors (die nur mit ein paar Executors laufen) Aktuelle Parallelität auf Executor-Ebene. Einige Möglichkeiten, die Daten zu verwenden: Repartitionieren oder Dekomprimieren großer Eingabedateien im Voraus, wenn Cluster nicht ausgelastet ist. Identifizieren Sie Verzögerungen bei der Ausführung von Phasen oder Aufträgen aufgrund von Straggler-Szenarien. • Vergleichen Sie mit numberMaxNeedded Executors, um den Rückstand für die Bereitstellung von mehr DPUs zu verstehen.
`glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors`	Die Anzahl der maximalen (aktiv ausgeführten und ausstehenden) Auftrags-Executors, die benötigt werden, um die aktuelle Last zu erfüllen. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Maximum. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird. Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Auftragsaktivität. Aktuelle Parallelität auf Executor-Ebene und Rückstand ausstehender Aufgaben, die wegen nicht verfügbaren Executors aufgrund von DPU-Kapazität oder beendeten/fehlgeschlagenen Executors noch nicht geplant wurden. Einige Möglichkeiten, die Daten zu verwenden: Identifizieren Sie den Ausstand/Rückstand der Scheduling-Warteschlange. Identifizieren Sie Verzögerungen bei der Ausführung von Phasen oder Aufträgen aufgrund von Straggler-Szenarien. Vergleichen Sie mit numberAllExecutors, um den Rückstand für die Bereitstellung von mehr DPUs zu verstehen. Erhöhen Sie die bereitgestellte DPU-Kapazität, um den ausstehenden Executor-Backlog zu korrigieren.
`glue.driver.jvm.heap.usage` `glue.`executorId`.jvm.heap.usage` `glue.ALL.jvm.heap.usage`	Den vom JVM-Heap für diesen Treiber (Skalierung: 0-1) verwendeten Speicheranteil – vom Treiber, einem durch executorId identifizierten Executor oder ALLE Executors. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird. Einheit: Prozentsatz Kann für die Überwachung folgender Aspekte verwendet werden: Out-of-Memory-Bedingungen (OOM) für Treiber unter Nutzung von `glue.driver.jvm.heap.usage`. Out-of-Memory-Bedingungen (OOM) für Executor unter Nutzung von `glue.ALL.jvm.heap.usage`. Einige Möglichkeiten, die Daten zu verwenden: Identifizieren Sie speicheraufwändige Executor-IDs und -Phasen. Identifizieren Sie Straggling-Executor-IDs und -Phasen. Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für einen Treiber. Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für Executor und erhalten Sie die entsprechende Executor-ID, um einen Stack-Trace aus dem Executor-Protokoll abrufen zu können. Identifizieren Sie Dateien oder Partitionen, die möglicherweise Datenverzerrung aufweisen, was zu Stragglern oder Out-of-Memory-Bedingungen führt.
`glue.driver.jvm.heap.used` `glue.`executorId`.jvm.heap.used` `glue.ALL.jvm.heap.used`	Die Anzahl der vom JVM-Heap verwendeten Speicherbytes für den Treiber, der durch executorId oder ALLE Executors identifiziert wurde. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird. Einheit: Byte Kann für die Überwachung folgender Aspekte verwendet werden: Out-of-Memory-Bedingungen (OOM) für Treiber. Out-of-Memory-Bedingungen (OOM) für Executor. Einige Möglichkeiten, die Daten zu verwenden: Identifizieren Sie speicheraufwändige Executor-IDs und -Phasen. Identifizieren Sie Straggling-Executor-IDs und -Phasen. Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für einen Treiber. Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für Executor und erhalten Sie die entsprechende Executor-ID, um einen Stack-Trace aus dem Executor-Protokoll abrufen zu können. Identifizieren Sie Dateien oder Partitionen, die möglicherweise Datenverzerrung aufweisen, was zu Stragglern oder Out-of-Memory-Bedingungen führt.
`glue.driver.s3.filesystem.read_bytes` `glue.`executorId`.s3.filesystem.read_bytes` `glue.ALL.s3.filesystem.read_bytes`	Die Anzahl der vom Treiber von Amazon S3 gelesenen Bytes, einem Executor, der durch executorId oder ALLE Executoren seit dem vorherigen Bericht (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der während der vorherigen Minute gelesenen Bytes) identifiziert wurde. Gültige Dimensionen: `JobName`, `JobRunId` und `Type` (Messung). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, weshalb auf dem Metrik-Dashboard von AWS Glue eine SUM-Statistik für die Aggregation verwendet wird. Die Fläche unter der Kurve auf dem Metrik-Dashboard von AWS Glue kann verwendet werden, um Bytes visuell zu vergleichen, die von zwei verschiedenen Auftragsausführungen gelesen werden. Einheit: Byte. Kann für die Überwachung folgender Aspekte verwendet werden: ETL-Datenbewegung. Fortschritt des Auftrags. Probleme mit Auftragslesezeichen (verarbeitete, wiederverarbeitete und übersprungene Daten). Vergleich der Lesevorgänge mit der Erfassungsrate aus externen Datenquellen. Abweichung über Auftragsausführungen hinweg. Die resultierenden Daten können verwendet werden für: DPU-Kapazitätsplanung. Einstellen von Alarmen für große Daten-Spikes oder Einbrüche, die für Auftragsausführungen und Auftragsphasen gelesen werden.
`glue.driver.s3.filesystem.write_bytes` `glue.`executorId`.s3.filesystem.write_bytes` `glue.ALL.s3.filesystem.write_bytes`	Die Anzahl der vom Treiber von Amazon S3 geschriebenen Bytes, ein Executor, der durch executorId oder ALLE Executors seit dem vorherigen Bericht (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der während der vorherigen Minute geschriebenen Bytes) identifiziert wurde. Gültige Dimensionen: `JobName`, `JobRunId` und `Type` (Messung). Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, weshalb auf dem Metrik-Dashboard von AWS Glue eine SUM-Statistik für die Aggregation verwendet wird. Die Fläche unter der Kurve auf dem Metrik-Dashboard von AWS Glue kann verwendet werden, um Bytes visuell zu vergleichen, die von zwei verschiedenen Auftragsausführungen geschrieben wurden. Einheit: Byte Kann für die Überwachung folgender Aspekte verwendet werden: ETL-Datenbewegung. Fortschritt des Auftrags. Probleme mit Auftragslesezeichen (verarbeitete, wiederverarbeitete und übersprungene Daten). Vergleich der Lesevorgänge mit der Erfassungsrate aus externen Datenquellen. Abweichung über Auftragsausführungen hinweg. Einige Möglichkeiten, die Daten zu verwenden: DPU-Kapazitätsplanung. Einstellen von Alarmen für große Daten-Spikes oder Einbrüche, die für Auftragsausführungen und Auftragsphasen gelesen werden.
`glue.driver.streaming.numRecords`	Die Anzahl der Datensätze, die in einem Mikrobatch empfangen werden. Diese Metrik ist nur für Streaming-Aufträge von AWS Glue mit AWS Glue-Versionen ab 2.0 verfügbar. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe, Maximum, Minimum, Durchschnitt, Prozent Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Gelesene Datensätze. Fortschritt des Auftrags.
`glue.driver.streaming.batchProcessingTimeInMs`	Die Zeit, die für die Verarbeitung der Batches in Millisekunden benötigt wird. Diese Metrik ist nur für Streaming-Aufträge von AWS Glue mit AWS Glue-Versionen ab 2.0 verfügbar. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Anzahl). Gültige Statistiken: Summe, Maximum, Minimum, Durchschnitt, Prozent Einheit: Anzahl Kann für die Überwachung folgender Aspekte verwendet werden: Fortschritt des Auftrags. Skript-Leistung.
`glue.driver.system.cpuSystemLoad` `glue.`executorId`.system.cpuSystemLoad` `glue.ALL.system.cpuSystemLoad`	Der vom Treiber verwendete Anteil der CPU-Systemauslastung (Skalierung: 0-1) – ein durch executorId identifizierter Executor oder ALLE Executors. Gültige Dimensionen: `JobName` (der Name des AWS Glue-Auftrags), `JobRunId` (die JobRun-ID oder `ALL`) und `Type` (Messung). Gültige Statistiken: Durchschnitt. Diese Metrik wird als absoluter Wert gemeldet. Einheit: Prozentsatz Kann für die Überwachung folgender Aspekte verwendet werden: CPU-Auslastung des Treibers. CPU-Auslastung des Executors. Erkennen von CPU-gebundenen oder E/A-gebundenen Executors oder Phasen in einem Auftrag. Einige Möglichkeiten, die Daten zu verwenden: DPU-Kapazitätsplanung zusammen mit E/A-Metriken (gelesene Bytes/Shuffle-Bytes, Task-Parallelismus) und der Anzahl der maximal benötigten Executor-Metrik. Identifizieren Sie das CPU/E/A-gebundene Verhältnis. Dies ermöglicht eine Neupartitionierung und Erhöhung der bereitgestellten Kapazität für Aufträge mit langer Laufzeit mit aufteilbaren Datensätzen mit einer geringeren CPU-Auslastung.

glue.driver.aggregate.bytesRead

Die Anzahl der Bytes, die von allen abgeschlossenen Spark-Aufgaben von allen Datenquellen gelesen und in allen Executors ausgeführt werden.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Byte

Kann für die Überwachung folgender Aspekte verwendet werden:

Gelesene Bytes.
Fortschritt des Auftrags.
JDBC-Datenquellen.
Probleme mit Lesezeichen.
Abweichung über Auftragsausführungen hinweg.

Diese Metrik kann genauso verwendet werden wie die glue.ALL.s3.filesystem.read_bytes-Metrik mit dem Unterschied, dass diese Metrik am Ende einer Spark-Aufgabe aktualisiert wird und auch Nicht-S3-Datenquellen erfasst.

glue.driver.aggregate.elapsedTime

Die ETL verstrichene Zeit in Millisekunden (schließt die Bootstrap-Zeiten des Auftrags nicht ein).

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Millisekunden

Kann verwendet werden, um zu ermitteln, wie lange eine Auftragsausführung im Durchschnitt dauert.

Einige Möglichkeiten, die Daten zu verwenden:

Stellen Sie Alarme für Straggler ein.
Messen Sie die Abweichung über Auftragsausführungen hinweg.

glue.driver.aggregate.numCompletedStages

Die Anzahl der abgeschlossenen Phasen im Auftrag.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Fortschritt des Auftrags.
Zeitachse pro Stufe der Auftragsausführung, wenn mit anderen Metriken korreliert.

Einige Möglichkeiten, die Daten zu verwenden:

Identifizieren Sie anspruchsvolle Phasen bei der Ausführung eines Auftrags.
Stellen Sie Alarme für korrelierte Spikes (anspruchsvolle Phasen) über Auftragsausführungen hinweg ein.

glue.driver.aggregate.numCompletedTasks

Die Anzahl der abgeschlossenen Aufgaben im Auftrag.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Fortschritt des Auftrags.
Parallelität innerhalb einer Phase.

glue.driver.aggregate.numFailedTasks

Die Anzahl der fehlgeschlagenen Aufgaben.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Datenanomalien, die zum Scheitern von Aufträgen führen.
Clusteranomalien, die zum Scheitern von Aufträgen führen.
Skriptanomalien, die zum Scheitern von Aufträgen führen.

Die Daten können verwendet werden, um Alarme für erhöhte Ausfälle einzustellen, die Anomalien in Daten, Clustern oder Skripten andeuten könnten.

glue.driver.aggregate.numKilledTasks

Anzahl der abgeschlossenen Aufgaben.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Anomalien in der Datenverzerrung, die zu Exceptions (OOMs) führen, die Aufgaben beenden.
Skriptanomalien in der Datenverzerrung, die zu Exceptions (OOMs) führen, die Aufgaben beenden.

Einige Möglichkeiten, die Daten zu verwenden:

Stellen Sie Alarme für erhöhte Ausfälle ein, die Datenanomalien anzeigen.
Stellen Sie Alarme für erhöhte Ausfälle ein, die Clusteranomalien anzeigen.
Stellen Sie Alarme für erhöhte Ausfälle ein, die Skriptanomalien anzeigen.

glue.driver.aggregate.recordsRead

Die Anzahl der Datensätze, die von allen abgeschlossenen Spark-Aufgaben von allen Datenquellen gelesen und in allen Executors ausgeführt werden.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Gelesene Datensätze.
Fortschritt des Auftrags.
JDBC-Datenquellen.
Probleme mit Lesezeichen.
Verzerrung in Auftragsausführungen über mehrere Tage.

Diese Metrik kann genauso verwendet werden wie die glue.ALL.s3.filesystem.read_bytes-Metrik mit dem Unterschied, dass diese Metrik am Ende einer Spark-Aufgabe aktualisiert wird.

glue.driver.aggregate.shuffleBytesWritten

Die Anzahl der von allen Executors geschriebenen Bytes, um ihre Daten zu mischen (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der Bytes, die in der vorherigen Minute für diesen Zweck geschrieben wurden).

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Byte

Kann verwendet werden, um Folgendes zu überwachen: Datenmischung in Aufträgen (große Joins, GroupBy, Repartition, Coalesce).

Einige Möglichkeiten, die Daten zu verwenden:

Repartitionieren oder Dekomprimieren Sie große Eingabedateien vor der weiteren Verarbeitung.
Repartitionieren Sie Daten einheitlicher, um Hotkeys zu vermeiden.
Vorfiltern von Daten vor Joins oder GroupBy-Operationen.

glue.driver.aggregate.shuffleLocalBytesRead

Die Anzahl der von allen Executors gelesenen Bytes, um ihre Daten zu mischen (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der Bytes, die in der vorherigen Minute für diesen Zweck gelesen wurden).

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, auf dem Metrik-Dashboard von AWS Glue wird also eine SUM-Statistik für die Aggregation verwendet.

Einheit: Byte

Kann verwendet werden, um Folgendes zu überwachen: Datenmischung in Aufträgen (große Joins, GroupBy, Repartition, Coalesce).

Einige Möglichkeiten, die Daten zu verwenden:

Repartitionieren oder Dekomprimieren Sie große Eingabedateien vor der weiteren Verarbeitung.
Repartitionieren Sie Daten einheitlicher mit Hotkeys.
Vorfiltern von Daten vor Joins oder GroupBy-Operationen.

glue.driver.BlockManager.disk.diskSpaceUsed_MB

Die Anzahl der Megabyte an Speicherplatz, die für alle Executoren verwendet werden.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird.

Einheit: Megabyte

Kann für die Überwachung folgender Aspekte verwendet werden:

Festplattenspeicher, der für Blöcke verwendet wird, die zwischengespeicherte RDD-Partitionen darstellen.
Festplattenspeicher, der für Blöcke verwendet wird, die Zwischenausgaben für Shuffle darstellen.
Festplattenspeicher, der für Blöcke verwendet wird, die Broadcasts darstellen.

Einige Möglichkeiten, die Daten zu verwenden:

Identifizieren von Auftragsfehlern aufgrund erhöhter Festplattenauslastung.
Identifizieren Sie große Partitionen, die zum Fluten oder Mischen führen.
Erhöhen Sie die bereitgestellte DPU-Kapazität, um diese Probleme zu beheben.

glue.driver.ExecutorAllocationManager.executors.numberAllExecutors

Die Anzahl der aktiven Auftrags-Executors.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Auftragsaktivität.
Straggling-Executors (die nur mit ein paar Executors laufen)
Aktuelle Parallelität auf Executor-Ebene.

Einige Möglichkeiten, die Daten zu verwenden:

Repartitionieren oder Dekomprimieren großer Eingabedateien im Voraus, wenn Cluster nicht ausgelastet ist.
Identifizieren Sie Verzögerungen bei der Ausführung von Phasen oder Aufträgen aufgrund von Straggler-Szenarien.
• Vergleichen Sie mit numberMaxNeedded Executors, um den Rückstand für die Bereitstellung von mehr DPUs zu verstehen.

glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors

Die Anzahl der maximalen (aktiv ausgeführten und ausstehenden) Auftrags-Executors, die benötigt werden, um die aktuelle Last zu erfüllen.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Maximum. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird.

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Auftragsaktivität.
Aktuelle Parallelität auf Executor-Ebene und Rückstand ausstehender Aufgaben, die wegen nicht verfügbaren Executors aufgrund von DPU-Kapazität oder beendeten/fehlgeschlagenen Executors noch nicht geplant wurden.

Einige Möglichkeiten, die Daten zu verwenden:

Identifizieren Sie den Ausstand/Rückstand der Scheduling-Warteschlange.
Identifizieren Sie Verzögerungen bei der Ausführung von Phasen oder Aufträgen aufgrund von Straggler-Szenarien.
Vergleichen Sie mit numberAllExecutors, um den Rückstand für die Bereitstellung von mehr DPUs zu verstehen.
Erhöhen Sie die bereitgestellte DPU-Kapazität, um den ausstehenden Executor-Backlog zu korrigieren.

glue.driver.jvm.heap.usage

glue.executorId.jvm.heap.usage

glue.ALL.jvm.heap.usage

Den vom JVM-Heap für diesen Treiber (Skalierung: 0-1) verwendeten Speicheranteil – vom Treiber, einem durch executorId identifizierten Executor oder ALLE Executors.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird.

Einheit: Prozentsatz

Kann für die Überwachung folgender Aspekte verwendet werden:

Out-of-Memory-Bedingungen (OOM) für Treiber unter Nutzung von glue.driver.jvm.heap.usage.
Out-of-Memory-Bedingungen (OOM) für Executor unter Nutzung von glue.ALL.jvm.heap.usage.

Einige Möglichkeiten, die Daten zu verwenden:

Identifizieren Sie speicheraufwändige Executor-IDs und -Phasen.
Identifizieren Sie Straggling-Executor-IDs und -Phasen.
Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für einen Treiber.
Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für Executor und erhalten Sie die entsprechende Executor-ID, um einen Stack-Trace aus dem Executor-Protokoll abrufen zu können.
Identifizieren Sie Dateien oder Partitionen, die möglicherweise Datenverzerrung aufweisen, was zu Stragglern oder Out-of-Memory-Bedingungen führt.

glue.driver.jvm.heap.used

glue.executorId.jvm.heap.used

glue.ALL.jvm.heap.used

Die Anzahl der vom JVM-Heap verwendeten Speicherbytes für den Treiber, der durch executorId oder ALLE Executors identifiziert wurde.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Durchschnitt. Dies ist eine Spark-Metrik, die als absoluter Wert gemeldet wird.

Einheit: Byte

Kann für die Überwachung folgender Aspekte verwendet werden:

Out-of-Memory-Bedingungen (OOM) für Treiber.
Out-of-Memory-Bedingungen (OOM) für Executor.

Einige Möglichkeiten, die Daten zu verwenden:

Identifizieren Sie speicheraufwändige Executor-IDs und -Phasen.
Identifizieren Sie Straggling-Executor-IDs und -Phasen.
Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für einen Treiber.
Identifizieren Sie eine Out-of-Memory-Bedingung (OOM) für Executor und erhalten Sie die entsprechende Executor-ID, um einen Stack-Trace aus dem Executor-Protokoll abrufen zu können.
Identifizieren Sie Dateien oder Partitionen, die möglicherweise Datenverzerrung aufweisen, was zu Stragglern oder Out-of-Memory-Bedingungen führt.

glue.driver.s3.filesystem.read_bytes

glue.executorId.s3.filesystem.read_bytes

glue.ALL.s3.filesystem.read_bytes

Die Anzahl der vom Treiber von Amazon S3 gelesenen Bytes, einem Executor, der durch executorId oder ALLE Executoren seit dem vorherigen Bericht (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der während der vorherigen Minute gelesenen Bytes) identifiziert wurde.

Gültige Dimensionen: JobName, JobRunId und Type (Messung).

Gültige Statistiken: Summe Diese Metrik ist ein Deltawert aus dem zuletzt gemeldeten Wert, weshalb auf dem Metrik-Dashboard von AWS Glue eine SUM-Statistik für die Aggregation verwendet wird. Die Fläche unter der Kurve auf dem Metrik-Dashboard von AWS Glue kann verwendet werden, um Bytes visuell zu vergleichen, die von zwei verschiedenen Auftragsausführungen gelesen werden.

Einheit: Byte.

Kann für die Überwachung folgender Aspekte verwendet werden:

ETL-Datenbewegung.
Fortschritt des Auftrags.
Probleme mit Auftragslesezeichen (verarbeitete, wiederverarbeitete und übersprungene Daten).
Vergleich der Lesevorgänge mit der Erfassungsrate aus externen Datenquellen.
Abweichung über Auftragsausführungen hinweg.

Die resultierenden Daten können verwendet werden für:

DPU-Kapazitätsplanung.
Einstellen von Alarmen für große Daten-Spikes oder Einbrüche, die für Auftragsausführungen und Auftragsphasen gelesen werden.

glue.driver.s3.filesystem.write_bytes

glue.executorId.s3.filesystem.write_bytes

glue.ALL.s3.filesystem.write_bytes

Die Anzahl der vom Treiber von Amazon S3 geschriebenen Bytes, ein Executor, der durch executorId oder ALLE Executors seit dem vorherigen Bericht (aggregiert durch das Metrik-Dashboard von AWS Glue als Anzahl der während der vorherigen Minute geschriebenen Bytes) identifiziert wurde.

Gültige Dimensionen: JobName, JobRunId und Type (Messung).

Einheit: Byte

Kann für die Überwachung folgender Aspekte verwendet werden:

ETL-Datenbewegung.
Fortschritt des Auftrags.
Probleme mit Auftragslesezeichen (verarbeitete, wiederverarbeitete und übersprungene Daten).
Vergleich der Lesevorgänge mit der Erfassungsrate aus externen Datenquellen.
Abweichung über Auftragsausführungen hinweg.

Einige Möglichkeiten, die Daten zu verwenden:

DPU-Kapazitätsplanung.
Einstellen von Alarmen für große Daten-Spikes oder Einbrüche, die für Auftragsausführungen und Auftragsphasen gelesen werden.

glue.driver.streaming.numRecords

Die Anzahl der Datensätze, die in einem Mikrobatch empfangen werden. Diese Metrik ist nur für Streaming-Aufträge von AWS Glue mit AWS Glue-Versionen ab 2.0 verfügbar.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe, Maximum, Minimum, Durchschnitt, Prozent

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Gelesene Datensätze.
Fortschritt des Auftrags.

glue.driver.streaming.batchProcessingTimeInMs

Die Zeit, die für die Verarbeitung der Batches in Millisekunden benötigt wird. Diese Metrik ist nur für Streaming-Aufträge von AWS Glue mit AWS Glue-Versionen ab 2.0 verfügbar.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Anzahl).

Gültige Statistiken: Summe, Maximum, Minimum, Durchschnitt, Prozent

Einheit: Anzahl

Kann für die Überwachung folgender Aspekte verwendet werden:

Fortschritt des Auftrags.
Skript-Leistung.

glue.driver.system.cpuSystemLoad

glue.executorId.system.cpuSystemLoad

glue.ALL.system.cpuSystemLoad

Der vom Treiber verwendete Anteil der CPU-Systemauslastung (Skalierung: 0-1) – ein durch executorId identifizierter Executor oder ALLE Executors.

Gültige Dimensionen: JobName (der Name des AWS Glue-Auftrags), JobRunId (die JobRun-ID oder ALL) und Type (Messung).

Gültige Statistiken: Durchschnitt. Diese Metrik wird als absoluter Wert gemeldet.

Einheit: Prozentsatz

Kann für die Überwachung folgender Aspekte verwendet werden:

CPU-Auslastung des Treibers.
CPU-Auslastung des Executors.
Erkennen von CPU-gebundenen oder E/A-gebundenen Executors oder Phasen in einem Auftrag.

Einige Möglichkeiten, die Daten zu verwenden:

DPU-Kapazitätsplanung zusammen mit E/A-Metriken (gelesene Bytes/Shuffle-Bytes, Task-Parallelismus) und der Anzahl der maximal benötigten Executor-Metrik.
Identifizieren Sie das CPU/E/A-gebundene Verhältnis. Dies ermöglicht eine Neupartitionierung und Erhöhung der bereitgestellten Kapazität für Aufträge mit langer Laufzeit mit aufteilbaren Datensätzen mit einer geringeren CPU-Auslastung.

Dimensionen für AWS Glue-Metriken

AWS Glue-Metriken verwenden den AWS Glue-Namespace und stellen Metriken für folgende Dimension(en) bereit:

Dimension	Beschreibung
`JobName`	Diese Dimension filtert nach Metriken aller Auftragsausführungen eines bestimmten AWS Glue-Auftrags.
`JobRunId`	Diese Dimension filtert nach Metriken einer bestimmten AWS Glue-Auftragsausführungen ausgeführt über eine JobRun-ID oder `ALL`.
`Type`	Diese Dimension filtert nach Metriken entweder nach `count` (eine aggregierte Zahl) oder `gauge` (ein Wert zu einem bestimmten Zeitpunkt).

Weitere Informationen finden Sie im Amazon CloudWatch User Guide.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Überwachung mit CloudWatch

Einrichten von Amazon-CloudWatch-Alarmen auf Auftragsprofilen von AWS Glue