Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ein AWS Glue Job kapselt ein Skript, das eine Verbindung zu Ihren Quelldaten herstellt, sie verarbeitet und sie dann in Ihr Datenziel schreibt. In der Regel werden bei einem Job Skripten zum Extrahieren, Transformieren und Laden (ETL) ausgeführt. Aufträge können auch allgemeine Python-Skripts (Python-Shell-Aufträge) ausführen. AWS Glue -Auslöser können Aufträge basierend auf einem Zeitplan oder Ereignis oder On-Demand starten. Sie können Auftragsausführungen überwachen, um mehr über Laufzeitmetriken wie Bearbeitungsstatus, Dauer und Startzeit zu erfahren.
Sie können Skripten verwenden, die AWS Glue generiert werden, oder Sie können eigene Skripts bereitstellen. Mit einem Quellschema und einer Zielposition oder einem Schema kann der AWS Glue Codegenerator automatisch ein Apache Spark API (PySpark) -Skript erstellen. Sie können dieses Skript als Ausgangspunkt verwenden und es bearbeiten, um Ihre Ziele zu erreichen.
AWS Glue kann Ausgabedateien in verschiedenen Datenformaten schreiben, darunter, JSONCSV, ORC (Optimized Row Columnar), Apache Parquet und Apache Avro. Für einige Datenformate können gängige Komprimierungsformate geschrieben werden.
AWS Glue unterstützt die folgenden Arten von Jobs:
Ein Spark-Job wird in einer Apache Spark-Umgebung ausgeführt, die von verwaltet wird AWS Glue. Er verarbeitet Daten in Batches.
-
Ein ETL Streaming-Job ähnelt einem Spark-Job, mit ETL dem Unterschied, dass er mit Datenströmen ausgeführt wird. Er verwendet das Framework Apache Spark Structured Streaming. Einige Spark-Jobfunktionen sind für ETL Streaming-Jobs nicht verfügbar.
-
Ein Python-Shell-Job führt Python-Skripte als Shell aus und unterstützt eine Python-Version, die von der AWS Glue Version abhängt, die Sie verwenden. Sie können diese Aufträge zum Planen und Ausführen von Aufgaben verwenden, die keine Apache-Spark-Umgebung erfordern.
-
Ray ist ein Open-Source-Framework für verteilte Berechnungen, mit dem Sie Workloads skalieren können, wobei der Schwerpunkt auf Python liegt. AWS Glue Ray-Jobs und interaktive Sitzungen ermöglichen es Ihnen, Ray innerhalb von Anwendungen zu verwenden. AWS Glue
Die folgenden Abschnitte enthalten Informationen zu ETL und Ray-Jobs in AWS Glue.