Übersicht über die Verwendung von AWS Glue

Mit AWS Glue speichern Sie Metadaten in der AWS Glue Data Catalog. Sie verwenden diese Metadaten, um ETL-Aufträge zu steuern, die Datenquellen transformieren und Ihr Data Warehouse oder Data Lake laden. In den folgenden Schritten werden der allgemeine Workflow und einige Optionen beschrieben, die Sie bei der Arbeit mit AWS Glue festlegen.

Anmerkung

Sie können die folgenden Schritte ausführen oder einen Workflow erstellen, der die Schritte 1 bis 3 automatisch ausführt. Weitere Informationen finden Sie unter Ausführen von komplexen ETL-Aktivitäten mithilfe von Blueprints und Workflows in AWS Glue.

Füllen Sie die AWS Glue Data Catalog mit Tabellendefinitionen.

In der Konsole können Sie für persistente Datastores einen Crawler hinzufügen, um den AWS Glue Data Catalog zu füllen. Sie können den Assistenten Add crawler (Crawler hinzufügen) über die Liste der Tabellen oder die Liste der Crawler starten. Wählen Sie einen oder mehrere Datenspeicher aus, auf die Ihr Crawler zugreifen kann. Sie können auch einen Zeitplan erstellen, um zu bestimmen, wie häufig der Crawler ausgeführt wird. Für Datenstreams können Sie die Tabellendefinition manuell erstellen und Streameigenschaften definieren.

Optional können Sie einen benutzerdefinierten Classifier angeben, die das Schema Ihrer Daten ableitet. Sie können benutzerdefinierte Klassifizierer erstellen, indem Sie ein Grok-Muster verwenden. Allerdings bietet AWS Glue integrierte Classifier, die von Crawlern automatisch verwendet werden, wenn ein benutzerdefinierter Classifier Ihre Daten nicht erkennt. Wenn Sie einen Crawler definieren, müssen Sie keinen Classifier auswählen. Weitere Informationen zu Classifiern in AWS Glue finden Sie unter Definieren und Verwalten von Klassifizierern.

Für das Crawling bestimmter Arten von Datenspeichern ist eine Internetverbindung erforderlich, die Authentifizierungs- und Standortdaten bereitstellt. Bei Bedarf können Sie eine Verbindung erstellen, die diese erforderlichen Informationen in der AWS Glue-Konsole bereitstellt.

Der Crawler liest Ihren Datenspeicher und erstellt Datendefinitionen sowie benannte Tabellen im AWS Glue Data Catalog. Diese Tabellen werden in einer Datenbank Ihrer Wahl abgelegt. Sie können auch den Data Catalog mit manuell erstellten Tabellen füllen. Mit dieser Methode geben Sie das Schema und andere Metadaten an, um Tabellendefinitionen im Data Catalog zu erstellen. Da diese Methode ein wenig mühselig und fehleranfällig ist, ist es oft besser, die Tabellendefinitionen von einem Crawler erstellen zu lassen.

Weitere Hinweise zum Auffüllen von AWS Glue Data Catalog mit Tabellendefinitionen finden Sie unter. Erstellen von Tabellen
Definieren Sie einen Auftrag, der die Transformation von Daten von der Quelle bis zum Ziel beschreibt.

Im Allgemeinen müssen Sie zum Erstellen eines Auftrags die folgenden Optionen auswählen:
- Wählen Sie eine Tabelle aus AWS Glue Data Catalog , die als Quelle für den Job dienen soll. Ihr Auftrag verwendet diese Tabellendefinition für den Zugriff auf Ihre Datenquelle und zum Interpretieren des Formats Ihrer Daten.
- Wählen Sie eine Tabelle oder einen Speicherort aus AWS Glue Data Catalog , der das Ziel des Jobs sein soll. Ihr Auftrag verwendet diese Informationen für den Zugriff auf Ihren Datenspeicher.
- Weisen Sie AWS Glue an, ein Skript zu generieren, um Ihre Quelle in ein Ziel umzuwandeln. AWS Glue generiert den Code zum Aufruf integrierter Transformationen, um Daten aus ihrem Quellschema in das Zielschemaformat zu konvertieren. Diese Transformationen führen Vorgänge wie das Kopieren von Daten, Benennen von Spalten und Filtern von Daten aus, um Daten nach Bedarf zu transformieren. Sie können dieses Skript in der AWS Glue-Konsole ändern.
Weitere Informationen zum Definieren von Aufträgen in AWS Glue finden Sie unter Erstellen von Visual-ETL-Aufträgen.
Führen Sie Ihren Auftrag aus, um die Daten zu transformieren.

Sie können Ihren Auftrag nach Bedarf ausführen oder basierend auf einem der folgenden Auslösertypen starten:
- Ein Auslöser, der auf einem Cron-Zeitplan basiert.
- Ein Auslöser, der ereignisbasiert ist, z. B. kann der erfolgreiche Abschluss eines anderen Auftrags einen AWS Glue-Auftrag starten.
- Ein Auslöser zum Starten eines Auftrags nach Bedarf.
Weitere Informationen zu Auslösern in AWS Glue finden Sie unter Starten von Aufträgen und Crawlern über Auslöser.
Überwachen Sie Ihre geplanten Crawler und ausgelösten Aufträge.

Zeigen Sie Folgendes mithilfe der AWS Glue-Konsole an:
- Details und Fehler zu ausgeführten Aufträgen
- Details und Fehler zu ausgeführten Crawlern
- Benachrichtigungen über AWS Glue-Aktivitäten
Weitere Informationen zur Überwachung Ihrer Crawler und Aufträge in AWS Glue finden Sie unter Überwachen AWS Glue.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte

Einrichten von IAM-Berechtigungen