Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ein AWS Glue Job kapselt ein Skript, das eine Verbindung zu Ihren Quelldaten herstellt, sie verarbeitet und sie dann in Ihr Datenziel schreibt. In der Regel führt ein Auftrag Extraktions-, Transformations- und Ladeskripts (Extract, Transform and Load, ETL) aus. Aufträge können auch allgemeine Python-Skripts (Python-Shell-Aufträge) ausführen. AWS Glue -Auslöser können Aufträge basierend auf einem Zeitplan oder Ereignis oder On-Demand starten. Sie können Auftragsausführungen überwachen, um mehr über Laufzeitmetriken wie Bearbeitungsstatus, Dauer und Startzeit zu erfahren.
Sie können Skripts verwenden, die AWS Glue generiert werden, oder Sie können eigene Skripts bereitstellen. Mit einem Quellschema und einem Zielverzeichnis oder Schema kann der AWS Glue Codegenerator automatisch ein Apache Spark-API-Skript (PySpark) erstellen. Sie können dieses Skript als Ausgangspunkt verwenden und es bearbeiten, um Ihre Ziele zu erreichen.
AWS Glue kann Ausgabedateien in verschiedenen Datenformaten schreiben, darunter JSON, CSV, ORC (Optimized Row Columnar), Apache Parquet und Apache Avro. Für einige Datenformate können gängige Komprimierungsformate geschrieben werden.
AWS Glue unterstützt die folgenden Arten von Jobs:
Ein Spark-Job wird in einer Apache Spark-Umgebung ausgeführt, die von verwaltet wird AWS Glue. Er verarbeitet Daten in Batches.
-
Ein Streaming-ETL-Auftrag ähnelt einem Spark-Auftrag, mit der Ausnahme, dass er ETL für Datenstreams ausführt. Er verwendet das Framework Apache Spark Structured Streaming. Einige Features von Spark-Aufträgen sind für Streaming-ETL-Aufträge nicht verfügbar.
-
Ein Python-Shell-Job führt Python-Skripte als Shell aus und unterstützt eine Python-Version, die von der AWS Glue Version abhängt, die Sie verwenden. Sie können diese Aufträge zum Planen und Ausführen von Aufgaben verwenden, die keine Apache-Spark-Umgebung erfordern.
-
Ray ist ein Open-Source-Framework für verteilte Berechnungen, mit dem Sie Workloads skalieren können, wobei der Schwerpunkt auf Python liegt. AWS Glue Ray-Jobs und interaktive Sitzungen ermöglichen es Ihnen, Ray innerhalb von Anwendungen zu verwenden. AWS Glue
Die folgenden Abschnitte enthalten Informationen über ETL- und Ray-Aufträge in AWS Glue.