Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Übersicht über die Verwendung von AWS Glue
Mit AWS Glue speichern Sie Metadaten in AWS Glue Data Catalog. Sie verwenden diese Metadaten, um ETL-Aufträge zu steuern, die Datenquellen transformieren und Ihr Data Warehouse oder Data Lake laden. In den folgenden Schritten werden der allgemeine Workflow und einige Optionen beschrieben, die Sie bei der Arbeit mit AWS Glue festlegen.
Anmerkung
Sie können die folgenden Schritte ausführen oder einen Workflow erstellen, der die Schritte 1 bis 3 automatisch ausführt. Weitere Informationen finden Sie unter Ausführen von komplexen ETL-Aktivitäten mithilfe von Blueprints und Workflows in AWS Glue.
-
Füllen Sie AWS Glue Data Catalog mit Tabellendefinitionen aus.
In der Konsole können Sie für persistente Datastores einen Crawler hinzufügen, um den AWS Glue Data Catalog zu füllen. Sie können den Assistenten Add crawler (Crawler hinzufügen) über die Liste der Tabellen oder die Liste der Crawler starten. Wählen Sie einen oder mehrere Datenspeicher aus, auf die Ihr Crawler zugreifen kann. Sie können auch einen Zeitplan erstellen, um zu bestimmen, wie häufig der Crawler ausgeführt wird. Für Datenstreams können Sie die Tabellendefinition manuell erstellen und Streameigenschaften definieren.
Optional können Sie einen benutzerdefinierten Classifier angeben, die das Schema Ihrer Daten ableitet. Sie können benutzerdefinierte Klassifizierer erstellen, indem Sie ein Grok-Muster verwenden. Allerdings bietet AWS Glue integrierte Classifier, die von Crawlern automatisch verwendet werden, wenn ein benutzerdefinierter Classifier Ihre Daten nicht erkennt. Wenn Sie einen Crawler definieren, müssen Sie keinen Classifier auswählen. Weitere Informationen zu Classifiern in AWS Glue finden Sie unter Klassifikatoren definieren und verwalten.
Für das Crawling bestimmter Arten von Datenspeichern ist eine Internetverbindung erforderlich, die Authentifizierungs- und Standortdaten bereitstellt. Bei Bedarf können Sie eine Verbindung erstellen, die diese erforderlichen Informationen in der AWS Glue-Konsole bereitstellt.
Der Crawler liest Ihren Datenspeicher und erstellt Datendefinitionen sowie benannte Tabellen im AWS Glue Data Catalog. Diese Tabellen werden in einer Datenbank Ihrer Wahl abgelegt. Sie können auch den Data Catalog mit manuell erstellten Tabellen füllen. Mit dieser Methode geben Sie das Schema und andere Metadaten an, um Tabellendefinitionen im Data Catalog zu erstellen. Da diese Methode ein wenig mühselig und fehleranfällig ist, ist es oft besser, die Tabellendefinitionen von einem Crawler erstellen zu lassen.
Weitere Informationen über das Füllen von AWS Glue Data Catalog mit Tabellendefinitionen finden Sie unter Erstellen von Tabellen.
-
Definieren Sie einen Auftrag, der die Transformation von Daten von der Quelle bis zum Ziel beschreibt.
Im Allgemeinen müssen Sie zum Erstellen eines Auftrags die folgenden Optionen auswählen:
-
Wählen Sie eine Tabelle aus AWS Glue Data Catalog als Quelle des Auftrags. Ihr Auftrag verwendet diese Tabellendefinition für den Zugriff auf Ihre Datenquelle und zum Interpretieren des Formats Ihrer Daten.
Wählen Sie eine Tabelle oder einen Standort aus AWS Glue Data Catalog als Ziel des Auftrags. Ihr Auftrag verwendet diese Informationen für den Zugriff auf Ihren Datenspeicher.
Weisen Sie AWS Glue an, ein Skript zu generieren, um Ihre Quelle in ein Ziel umzuwandeln. AWS Glue generiert den Code zum Aufruf integrierter Transformationen, um Daten aus ihrem Quellschema in das Zielschemaformat zu konvertieren. Diese Transformationen führen Vorgänge wie das Kopieren von Daten, Benennen von Spalten und Filtern von Daten aus, um Daten nach Bedarf zu transformieren. Sie können dieses Skript in der AWS Glue-Konsole ändern.
Weitere Informationen zum Definieren von Aufträgen in AWS Glue finden Sie unter Visuelle ETL Jobs erstellen mit AWS Glue Studio.
-
-
Führen Sie Ihren Auftrag aus, um die Daten zu transformieren.
Sie können Ihren Auftrag nach Bedarf ausführen oder basierend auf einem der folgenden Auslösertypen starten:
-
Ein Auslöser, der auf einem Cron-Zeitplan basiert.
-
Ein Auslöser, der ereignisbasiert ist, z. B. kann der erfolgreiche Abschluss eines anderen Auftrags einen AWS Glue-Auftrag starten.
-
Ein Auslöser zum Starten eines Auftrags nach Bedarf.
Weitere Informationen zu Auslösern in AWS Glue finden Sie unter Starten von Aufträgen und Crawlern über Auslöser.
-
-
Überwachen Sie Ihre geplanten Crawler und ausgelösten Aufträge.
Zeigen Sie Folgendes mithilfe der AWS Glue-Konsole an:
-
Details und Fehler zu ausgeführten Aufträgen
-
Details und Fehler zu ausgeführten Crawlern
Benachrichtigungen über AWS Glue-Aktivitäten
Weitere Informationen zur Überwachung Ihrer Crawler und Aufträge in AWS Glue finden Sie unter Überwachung AWS Glue.
-