Verwendung von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwendung von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen

Open-Source-Data-Lake-Frameworks vereinfachen die inkrementelle Datenverarbeitung für Dateien, die Sie in Data Lakes speichern, die auf Amazon S3 basieren. AWS Glue 3.0 und höher unterstützt die folgenden Open-Source-Data-Lake-Frameworks:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

Wir bieten native Unterstützung für diese Frameworks an, sodass Sie Daten, die Sie in Amazon S3 speichern, transaktionskonsistent lesen und schreiben können. Es ist nicht erforderlich, einen separaten Konnektor zu installieren oder zusätzliche Konfigurationsschritte durchzuführen, um diese Frameworks in AWS Glue-ETL-Aufträgen zu verwenden.

Wenn Sie Datensätze über das AWS Glue Data Catalog verwalten, können Sie AWS Glue-Methoden zum Lesen und Schreiben von Data-Lake-Tabellen mit Spark DataFrames verwenden. Sie können Amazon-S3-Daten auch mit der Spark-DataFrame-API lesen und schreiben.

In diesem Video erfahren Sie mehr über die Grundlagen der Funktionsweise von Apache Hudi, Apache Iceberg und Delta Lake. Sie erfahren, wie Sie Daten in Ihren Data Lake einfügen, aktualisieren und löschen und wie jedes dieser Frameworks funktioniert.