Status der AWS Glue-Auftragsausführung in der Konsole - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Status der AWS Glue-Auftragsausführung in der Konsole

Sie können den Status eines Jobs zum AWS Glue Extrahieren, Transformieren und Laden (ETL) anzeigen, während er ausgeführt wird oder nachdem er beendet wurde. Sie können den Status mit der AWS Glue-Konsole anzeigen. Weitere Informationen zu Auftragsausführungsstatus finden Sie unter AWS Glue-Status von Auftragsausführungen.

Zugriff auf das Dashboard für die Auftragsüberwachung

Sie greifen auf das Job-Monitoring-Dashboard zu, indem Sie im AWS Glue Navigationsbereich unter ETLJobs den Link Job Run Monitoring auswählen.

Übersicht über das Dashboard zur Auftragsüberwachung

Das Dashboard zur Auftragsüberwachung bietet eine Gesamtübersicht der Auftragsausführungen und gibt an, wie viele Aufträge sich jeweils in den Status Running (Wird ausgeführt), Canceled (Abgebrochen), Success (Erfolgreich) und Failed (Fehlgeschlagen) befinden. Zusätzliche Kacheln enthalten die Erfolgsquote der Auftragsausführung insgesamt, die geschätzte DPU Nutzung von Aufträgen sowie eine Aufschlüsselung der Anzahl der Auftragsstatus nach Auftragstyp, Arbeitstyp und Tag.

Die Diagramme in den Kacheln sind interaktiv. Sie können einen beliebigen Block in einem Diagramm auswählen und einen Filter anwenden, sodass nur diese Aufträge in der Tabelle Job runs (Auftragsausführungen) unten auf der Seite angezeigt werden.

Sie können den Datumsbereich der auf dieser Seite angezeigten Informationen mithilfe der Auswahl Date range (Datumsbereich) ändern. Wenn Sie den Datumsbereich ändern, werden auf den Informationskacheln nur die Werte aus den vergangenen x Tagen angezeigt. Sie können auch einen bestimmten Datumsbereich anwenden, wenn Sie Custom (Benutzerdefiniert) bei der Datumsbereichauswahl auswählen.

Anzeigen von Auftragsausführungen

Anmerkung

Der Verlauf der Auftragsausführung ist 90 Tage lang für Ihren Workflow und Ihre Auftragsausführung zugänglich.

Die Ressource Job runs (Auftragsausführungen) zeigt die Aufträge für den angegebenen Datumsbereich und die Filter an.

Sie können die Aufträge nach zusätzlichen Kriterien filtern, z. B. Status, Worker-Typ, Auftragstyp und Auftragsname. Im Filterfeld oberhalb der Tabelle können Sie den Text eingeben, der als Filter verwendet werden soll. Während Sie den Text eingeben, werden die Tabellenergebnisse mit Zeilen ergänzt, die übereinstimmenden Text enthalten.

Sie können eine Teilmenge der Aufträge anzeigen, indem Sie Elemente aus den Diagrammen im Dashboard zur Auftragsüberwachung auswählen. Wenn Sie beispielsweise die Anzahl der laufenden Aufträge in der Kachel Job runs summary (Zusammenfassung der Auftragsausführungen) auswählen, dann zeigt die Liste Auftragsausführungen nur die Aufträge an, die derzeit den Status Running (Wird ausgeführt) haben. Wenn Sie einen der Balken im Balkendiagramm Worker type breakdown (Gliederung des Worker-Typs) auswählen, werden nur Auftragsausführungen mit dem übereinstimmenden Worker-Typ und Status in der Liste Job runs (Auftragsausführungen) angezeigt.

In der Ressourcenliste Job runs (Auftragsausführungen) sind die Details für die Auftragsausführungen zu sehen. Sie können die Zeilen in der Tabelle sortieren, indem Sie eine Spaltenüberschrift auswählen. In der Tabelle finden Sie die folgenden Informationen:

Property (Eigenschaft) Description (Beschreibung)
Job name (Auftragsname) Der Name des -Auftrags.
Type (Typ)

Den Typen der Auftragsumgebung.

  • Glue ETL: Läuft in einer Apache Spark-Umgebung, die von verwaltet wirdAWS Glue.

  • Glue Streaming: Läuft in einer Apache Spark-Umgebung und funktioniert ETL mit Datenströmen.

  • Python-Shell: Führt Python-Skripte als Shell aus.

Start time (Startzeit)

Das Datum und die Uhrzeit, an denen diese Auftragsausführung gestartet wurde

End time (Endzeit)

Das Datum und die Uhrzeit, an denen diese Auftragsausführung abgeschlossen wurde

Run status (Ausführungsstatus)

Den aktuellen Status der Auftragsausführung. Der Status kann die folgenden Werte haben:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Run time (Laufzeit) Die Zeit, in der durch die Auftragsausführung Ressourcen verbraucht wurden
Capacity (Kapazität)

Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die für diese Auftragsausführung zugewiesen wurden. Weitere Informationen zur Kapazitätsplanung finden Sie unter Monitoring for DPU Capacity Planning im AWS GlueEntwicklerhandbuch.

Worker type (Worker-Typ)

Der Typ des vordefinierten Workers, der zugeordnet wurde, als ein Auftrag in der Ausführung war. Die Werte können G.1X, G.2X, G.4X oder G.8X sein.

  • G.1X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker hat eine Zuordnung zu 1 DPU (4vCPUs, 16 GB Arbeitsspeicher) mit 84 GB Festplatte (ca. 34 GB freier Speicherplatz). Wir empfehlen diesen Worker-Typ für speicherintensive Aufträge. Dies ist die Standardeinstellung Worker-Typ für Aufträge mit AWS Glue-Version 2.0 oder höher

  • G.2X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker wird 2 DPU (8vCPUs, 32 GB Arbeitsspeicher) zugeordnet und verfügt über eine 128-GB-Festplatte (ca. 77 GB freier Speicherplatz). Wir empfehlen diesen Worker-Typ für speicherintensive Aufträge und solche, die Machine-Learning-Transformationen ausführen.

  • G.4X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker ordnet 4 DPU (16vCPUs, 64 GB Arbeitsspeicher) mit 256 GB Festplatte (ca. 235 GB freier Speicherplatz) zu. Wir empfehlen diesen Worker-Typ für Aufträge, deren Workloads Ihre anspruchsvollsten Transformationen, Aggregationen, Verknüpfungen und Abfragen enthalten. Dieser Workertyp ist nur für ETL Spark-Jobs der AWS Glue Version 3.0 oder höher in den folgenden AWS Regionen verfügbar: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland) und Europa (Stockholm).

  • G.8X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker ordnet 8 DPU (32vCPUs, 128 GB Arbeitsspeicher) mit 512 GB Festplatte (ca. 487 GB frei) zu. Wir empfehlen diesen Worker-Typ für Aufträge, deren Workloads Ihre anspruchsvollsten Transformationen, Aggregationen, Verknüpfungen und Abfragen enthalten. Dieser Worker-Typ ist nur für ETL Spark-Jobs der AWS Glue Version 3.0 oder höher in denselben AWS Regionen verfügbar, in denen er auch für den G.4X Worker-Typ unterstützt wird.

DPUStunden

Die geschätzte Anzahl der für die Ausführung des Jobs DPUs verwendeten. A DPU ist ein relatives Maß für die Rechenleistung. DPUswerden verwendet, um die Kosten für die Ausführung Ihres Jobs zu ermitteln. Weitere Informationen finden Sie in der AWS Glue-Preisliste.

Sie können eine beliebige Auftragsausführung in der Liste auswählen und sich weitere Informationen anzeigen lassen. Wählen Sie eine Auftragsausführung aus und führen Sie dann einen der folgenden Schritte aus:

  • Wählen Sie im Menü Actions (Aktionen) die Option View job (Auftrag anzeigen), um den Auftrag im visuellen Editor zu sehen.

  • Wählen Sie im Menü Actions (Aktionen) die Option Stop run (Ausführung stoppen), um die aktuelle Ausführung des Auftrags zu stoppen.

  • Wählen Sie die Schaltfläche „ CloudWatch Protokolle anzeigen“, um die Job-Ausführungsprotokolle für diesen Job anzuzeigen.

  • Wählen Sie Details anzeigen aus, um die Seite mit den Details zur Auftragsausführung zu öffnen.

Anzeigen der Auftragsausführungsprotokolle

Sie können die Auftragsprotokolle auf verschiedene Weise anzeigen:

  • Wählen Sie auf der Seite Überwachung in der Tabelle Auftragsausführungen eine Auftragsausführung aus, und klicken Sie dann auf CloudWatch Protokolle anzeigen.

  • Wählen Sie im visuellen Auftragseditor auf der Registerkarte Runs (Ausführungen) eines Auftrags die Hyperlinks aus, um die Protokolle anzuzeigen:

    • Logs (Protokolle) – Link zu den Apache-Spark-Auftragsprotokollen, die geschrieben werden, wenn die kontinuierliche Protokollierung für eine Auftragsausführung aktiviert ist. Wenn Sie diesen Link wählen, gelangen Sie zu den Amazon CloudWatch Protokollen in der /aws-glue/jobs/logs-v2 Protokollgruppe. Standardmäßig schließen die Protokolle nicht nützliche Apache YARN Hadoop-Heartbeat- und Apache Spark-Treiber- oder Executor-Protokollmeldungen aus. Weitere Informationen zur fortlaufenden Protokollierung finden Sie unter Kontinuierliche Protokollierung für AWS Glue-Aufträge im AWS Glue-Entwicklerhandbuch.

    • Error logs (Fehlerprotolle) – Link zu den Protokollen, die für diese Auftragsausführung in stderr geschrieben werden. Wenn Sie diesen Link auswählen, gelangen Sie zu den Amazon CloudWatch -Protokollen in der Protokollgruppe /aws-glue/jobs/error. Die Protokolle zeigen Details zu den einzelnen aufgetretenen Fehlern.

    • Logs (Protokolle) – Link zu den Protokollen, die für diese Auftragsausführung in stdout geschrieben wurden. Wenn Sie diesen Link auswählen, gelangen Sie zu den Amazon CloudWatch -Protokollen in der Protokollgruppe /aws-glue/jobs/output. In diesen Protokolle sehen Sie alle Details über die Tabellen, die im AWS Glue Data Catalog erstellt wurden und alle aufgetretenen Fehler.

Anzeigen der Details einer Auftragsausführung

Sie können einen Auftrag in der Liste Job runs (Auftragsausführungen) auf der Seite Monitoring (Überwachung) auswählen und sich dann mit View run details (Details zu Ausführung anzeigen) detaillierte Informationen für diese Ausführung des Auftrags anzeigen lassen.

Die Informationen auf der Seite mit den Ausführungsdetails umfassen Folgendes:

Property (Eigenschaft) Description (Beschreibung)
Job name (Auftragsname) Der Name des -Auftrags.
Run status (Ausführungsstatus)

Den aktuellen Status der Auftragsausführung. Der Status kann die folgenden Werte haben:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue version (Glue-Version) Die AWS Glue-Version, die von der Auftragsausführung verwendet wird.
Recent attempt (Letzte Versuche) Die Anzahl der automatischen Wiederholungsversuche für diese Auftragsausführung.
Start time (Startzeit)

Das Datum und die Uhrzeit, an denen diese Auftragsausführung gestartet wurde

End time (Endzeit)

Das Datum und die Uhrzeit, an denen diese Auftragsausführung abgeschlossen wurde

Startupzeit

Dauer der Vorbereitung für die Auftragsausführung.

Execution time (Ausführungszeit)

Dauer der Ausführung des Auftragsskripts.

Trigger name (Auslösername)

Der Name des Triggers, der dem Auftrag zugeordnet ist.

Last modified on (Letzte Änderung)

Das Datum, an dem der Auftrag zuletzt geändert wurde.

Security configuration (Sicherheitskonfiguration)

Die Sicherheitskonfiguration für den Job, die Amazon S3 S3-Verschlüsselungs- und CloudWatch Verschlüsselungseinstellungen für Job-Lesezeichen umfasst.

Zeitüberschreitung Der Schwellenwert für eine Zeitüberschreitung bei der Auftragsausführung.
Allocated capacity (Zugewiesene Kapazität)

Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die für diese Auftragsausführung zugewiesen wurden. Weitere Informationen zur Kapazitätsplanung finden Sie unter Monitoring for DPU Capacity Planning im AWS GlueEntwicklerhandbuch.

Max capacity (Maximale Kapazität)

Die maximale Kapazität, die für die Auftragsausführung verfügbar ist.

Number of workers (Anzahl der Worker) Die Anzahl der Worker, die für die Auftragsausführung verwendet werden.
Worker type (Worker-Typ)

Der Typ der vordefinierten Worker, die der Auftragsausführung zugewiesen sind Werte können G.1X oder G.2X sein.

  • G.1X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker ist 1 zugeordnet DPU (4vCPUs, 16 GB Arbeitsspeicher, 64 GB Festplatte) und stellt einen Executor pro Worker bereit. Wir empfehlen diesen Worker-Typ für speicherintensive Aufträge. Dies ist die Standardeinstellung Worker-Typ für Aufträge mit AWS Glue-Version 2.0 oder höher

  • G.2X – Wenn Sie diese Art auswählen, müssen Sie auch einen Wert für die Anzahl der Worker angeben. Jeder Worker wird 2 zugeordnet DPUs (8vCPUs, 32 GB Arbeitsspeicher, 128 GB Festplatte) und stellt einen Executor pro Worker zur Verfügung. Wir empfehlen diesen Worker-Typ für speicherintensive Aufträge und solche, die Machine-Learning-Transformationen ausführen.

Logs (Protokolle) Ein Link zu den Auftragsprotokollen für die kontinuierliche Protokollierung (/aws-glue/jobs/logs-v2).
Output Logs (Ausgabeprotokolle) Ein Link zu den Auftrags-Ausgabeprotokolldateien (/aws-glue/jobs/output).
Fehlerprotokolle Ein Link zu den Auftrags-Fehlerprotokolldateien (/aws-glue/jobs/error).

Sie können auch die folgenden zusätzlichen Elemente anzeigen, die verfügbar sind, wenn Sie Informationen zu den letzten Auftragsausführungen aufrufen. Weitere Informationen finden Sie unter Anzeigen von Informationen zu den letzten Auftragsausführungen.

Amazon CloudWatch Metriken für eine Spark-Jobausführung anzeigen

Auf der Detailseite für einen Joblauf, unterhalb des Abschnitts Ausführungsdetails, können Sie die Job-Metriken einsehen. AWS Glue Studiosendet Job-Metriken Amazon CloudWatch für jeden Job-Lauf an.

AWS Glue meldet Amazon CloudWatch alle 30 Sekunden Metriken. Die AWS Glue -Metriken stellen Deltawerte gegenüber den zuvor gemeldeten Werten dar. Gegebenenfalls aggregieren (summieren) die Metrik-Dashboards die 30-Sekunden-Wertezu einem Wert für die gesamte vergangene Minute. Bei den Apache Spark-Metriken, AWS Glue die an weitergegeben Amazon CloudWatch werden, handelt es sich jedoch im Allgemeinen um absolute Werte, die den aktuellen Status zum Zeitpunkt der Berichterstattung darstellen.

Anmerkung

Sie müssen Ihr Konto für den Zugriff auf Amazon CloudWatch, konfigurieren.

Die Metriken enthalten Informationen über die Auftragsausführung, z. B.:

  • ETLDatenbewegung — Die Anzahl der Byte, die von Amazon S3 gelesen oder in Amazon S3 geschrieben wurden.

  • Speicherprofil: verwendeter Heap — Die Anzahl der vom Java Virtual Machine (JVM) -Heap verwendeten Speicherbytes.

  • Speicherprofil: Heap-Nutzung — Der Anteil des Speichers (Skala: 0—1), angegeben als Prozentsatz, der vom Heap verwendet wird. JVM

  • CPULast — Der Anteil der verwendeten CPU Systemlast (Skala: 0—1), dargestellt als Prozentsatz.

Amazon CloudWatch Metriken für eine Ray-Jobausführung anzeigen

Auf der Detailseite für einen Joblauf, unterhalb des Abschnitts Ausführungsdetails, können Sie die Job-Metriken einsehen. AWS Glue Studiosendet Job-Metriken Amazon CloudWatch für jeden Job-Lauf an.

AWS Glue meldet Amazon CloudWatch alle 30 Sekunden Metriken. Die AWS Glue -Metriken stellen Deltawerte gegenüber den zuvor gemeldeten Werten dar. Gegebenenfalls aggregieren (summieren) die Metrik-Dashboards die 30-Sekunden-Wertezu einem Wert für die gesamte vergangene Minute. Bei den Apache Spark-Metriken, AWS Glue die an weitergegeben Amazon CloudWatch werden, handelt es sich jedoch im Allgemeinen um absolute Werte, die den aktuellen Status zum Zeitpunkt der Berichterstattung darstellen.

Anmerkung

Sie müssen Ihr Konto für den Zugriff konfigurieren Amazon CloudWatch, wie unter beschrieben.

In Ray-Aufträgen können Sie die folgenden aggregierten Metrikdiagramme anzeigen. Damit können Sie ein Profil Ihres Clusters und Ihrer Aufgaben entwickeln und auf detaillierte Informationen über jeden Knoten zugreifen. Die Zeitreihendaten, die diesen Diagrammen zugrunde liegen, stehen CloudWatch für weitere Analysen zur Verfügung.

Aufgabenprofil: Status der Aufgabe

Zeigt die Anzahl der Ray-Aufgaben im System an. Jedem Aufgabenlebenszyklus wird eine eigene Zeitreihe zugewiesen.

Aufgabenprofil: Name der Aufgabe

Zeigt die Anzahl der Ray-Aufgaben im System an. Es werden nur ausstehende und aktive Aufgaben angezeigt. Jedem Aufgabentyp (nach Namen) wird eine eigene Zeitreihe zugewiesen.

Cluster-Profil: wird CPUs verwendet

Zeigt die Anzahl der verwendeten CPU Kerne an. Jedem Knoten wird eine eigene Zeitreihe zugewiesen. Knoten werden durch IP-Adressen identifiziert, die kurzlebig sind und nur zur Identifizierung verwendet werden.

Cluster-Profil: Speichernutzung des Objektspeichers

Zeigt die Speichernutzung durch den Ray-Objekt-Cache an. Jedem Speicherort (physischer Speicher, auf der Festplatte zwischengespeichert und in Amazon S3 verschüttet) wird eine eigene Zeitreihe zugewiesen. Der Objektspeicher verwaltet die Datenspeicherung auf allen Knoten im Cluster. Weitere Informationen finden Sie unter Objekte in der Ray-Dokumentation.

Cluster-Profil: Anzahl der Knoten

Zeigt die Anzahl der für den Cluster bereitgestellten Knoten an.

Knotendetail: CPU verwenden

Zeigt die CPU Auslastung auf jedem Knoten als Prozentsatz an. Jede Serie zeigt einen aggregierten Prozentsatz der CPU Nutzung aller Kerne auf dem Knoten.

Knotendetail: Speichernutzung

Zeigt die Speichernutzung auf jedem Knoten in GB an. Jede Reihe zeigt den zwischen allen Prozessen auf dem Knoten zusammengefassten Speicher, einschließlich Ray-Aufgaben und dem Plasma-Speicherprozess. Dies gilt nicht für auf der Festplatte gespeicherte oder an Amazon S3 übertragene Objekte.

Knotendetail: Festplattennutzung

Zeigt die Festplattennutzung auf jedem Knoten in GB an.

Knotendetails: Festplatten-E/A-Geschwindigkei

Zeigt Festplatten-E/A auf jedem Knoten in KB/s an.

Knotendetails: Netzwerk-E/A-Durchsatz

Zeigt Netzwerk-E/A auf jedem Knoten in KB/s an.

Knotendetail: Wird von der Ray-Komponente CPU verwendet

Zeigt die CPU Verwendung in Bruchteilen eines Kerns an. Jeder Ray-Komponente an jedem Knoten wird eine eigene Zeitreihe zugewiesen.

Knotendetail: Speichernutzung durch Ray-Komponente

Zeigt die Speichernutzung in GB an. Jeder Ray-Komponente an jedem Knoten wird eine eigene Zeitreihe zugewiesen.