Baupläne und Arbeitsabläufe in Lake Formation - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Baupläne und Arbeitsabläufe in Lake Formation

Ein Workflow umfasst eine komplexe Extraktions-, Transformations- und Load () -Aktivität mit mehreren Aufträgen. ETL Workflows generieren AWS Glue Crawler, Jobs und Trigger, um das Laden und Aktualisieren von Daten zu orchestrieren. Lake Formation führt einen Workflow als eine Einheit aus und verfolgt ihn. Sie können einen Workflow so konfigurieren, dass er bei Bedarf oder nach einem Zeitplan ausgeführt wird.

Workflows, die Sie in Lake Formation erstellen, sind sichtbar in AWS Glue Konsole als gerichteter azyklischer Graph ()DAG. Jeder DAG Knoten ist ein Job, Crawler oder Trigger. Um den Fortschritt zu überwachen und Fehler zu beheben, können Sie den Status jedes Knotens im Workflow verfolgen.

Wenn ein Lake Formation Formation-Workflow abgeschlossen ist, erhält der Benutzer, der den Workflow ausgeführt hat, die Lake Formation SELECT Formation-Berechtigung für die Datenkatalogtabellen, die der Workflow erstellt.

Sie können Workflows auch in erstellen AWS Glue. Da Sie mit Lake Formation jedoch einen Workflow anhand eines Blueprints erstellen können, ist die Erstellung von Workflows in Lake Formation viel einfacher und automatisierter. Lake Formation bietet die folgenden Arten von Bauplänen:

  • Datenbank-Snapshot — Lädt Daten aus allen Tabellen aus einer JDBC Quelle in den Data Lake oder lädt sie neu. Sie können einige Daten anhand eines Ausschlussmusters aus der Quelle ausschließen.

  • Inkrementelle Datenbank — Lädt nur neue Daten aus einer JDBC Quelle in den Data Lake, die auf zuvor gesetzten Lesezeichen basieren. Sie geben die einzelnen Tabellen in der JDBC Quelldatenbank an, die aufgenommen werden sollen. Für jede Tabelle wählen Sie die Lesezeichenspalten und die Lesezeichen-Sortierreihenfolge aus, um den Überblick über die Daten zu behalten, die zuvor geladen wurden. Wenn Sie zum ersten Mal einen inkrementellen Datenbank-Blueprint für eine Gruppe von Tabellen ausführen, lädt der Workflow alle Daten aus den Tabellen und legt Lesezeichen für den nächsten inkrementellen Datenbank-Blueprint-Lauf fest. Sie können daher einen inkrementellen Datenbank-Blueprint anstelle des Datenbanksnapshot-Blueprints verwenden, um alle Daten zu laden, vorausgesetzt, Sie geben jede Tabelle in der Datenquelle als Parameter an.

  • Protokolldatei — Daten werden massenweise aus Protokolldateiquellen geladen AWS CloudTrail, darunter Elastic Load Balancing-Logs und Application Load Balancer Balancer-Logs.

Anhand der folgenden Tabelle können Sie entscheiden, ob Sie einen Datenbank-Snapshot oder einen inkrementellen Datenbank-Blueprint verwenden möchten.

Verwenden Sie einen Datenbank-Snapshot, wenn... Verwenden Sie eine inkrementelle Datenbank, wenn...
  • Die Schemaentwicklung ist flexibel. (Spalten werden umbenannt, vorherige Spalten werden gelöscht und an ihrer Stelle werden neue Spalten hinzugefügt.)

  • Vollständige Konsistenz zwischen der Quelle und dem Ziel ist erforderlich.

  • Die Entwicklung des Schemas erfolgt inkrementell. (Es werden nur nacheinander Spalten hinzugefügt.)

  • Es werden nur neue Zeilen hinzugefügt; vorherige Zeilen werden nicht aktualisiert.

Anmerkung

Benutzer können von Lake Formation erstellte Blueprints und Workflows nicht bearbeiten.