Tutorial: Hinzufügen eines AWS Glue Crawler

Fokusmodus

Tutorial: Hinzufügen eines AWS Glue Crawler - AWS Glue

Voraussetzungen Schritt 1: Einen Crawler erstellen Schritt 2: Den Crawler ausführen Schritt 3: Ansehen AWS Glue Data Catalog objects

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dafür AWS Glue In diesem Szenario werden Sie gebeten, die Ankunftsdaten großer Fluggesellschaften zu analysieren, um die Beliebtheit von Abflughäfen von Monat zu Monat zu berechnen. Sie haben Flugdaten für das Jahr 2016 im CSV-Format in Amazon S3 gespeichert. Bevor Sie Ihre Daten transformieren und analysieren, katalogisieren Sie ihre Metadaten in AWS Glue Data Catalog.

In diesem Tutorial wollen wir einen Crawler nutzen, der Metadaten aus diesen Flugprotokollen in Amazon S3 ableitet und eine Tabelle in Ihrem Data Catalog erstellt.

Themen

Voraussetzungen
Schritt 1: Einen Crawler erstellen
Schritt 2: Den Crawler ausführen
Schritt 3: Ansehen AWS Glue Data Catalog objects

Voraussetzungen

In diesem Tutorial wird davon ausgegangen, dass Sie ein AWS Konto haben und Zugriff auf AWS Glue.

Schritt 1: Einen Crawler erstellen

Die folgenden Schritte zeigen, wie Sie einen Crawler konfigurieren und ausführen, der die Metadaten aus einer CSV-Datei in Amazon S3 extrahiert.

Einen Crawler erstellen, der Dateien auf Amazon S3 liest

Wählen Sie in der AWS Glue Servicekonsole im Menü auf der linken Seite Crawlers aus.
Wählen Sie auf der Crawlers-Seite die Option Crawler erstellen aus. Es erscheint eine Folge von Seiten, auf denen Sie Details zum Crawler eingeben sollen.
Geben Sie im Namensfeld des Crawlers Flights Data Crawler ein und wählen Sie Next (Weiter) aus.

Crawler rufen Classifier auf, um das Schema Ihrer Daten abzuleiten. In diesem Tutorial wird standardmäßig der integrierte Classifier für CSV verwendet.
Wählen Sie für den Crawler-Quelltyp die Option Data stores (Datenspeicher) und anschließend Next (Weiter) aus.
Jetzt wollen wir den Crawler auf Ihre Daten verweisen. Wählen Sie auf der Seite Add a data store (Datenspeicher hinzufügen) den Datenspeicher „Amazon S3“ aus. In diesem Tutorial wird keine Verbindung verwendet. Lassen Sie daher das Feld Connection (Verbindung) leer, wenn Sie es sehen.

Wählen Sie unter Crawl data in (Daten durchsuchen in) die Option Specified path in another account (Angegebener Pfad in einem anderen Konto) aus. Geben Sie dann bei Include path (Pfad hinzufügen) den Pfad ein, in dem der Crawler die Flugdaten finden kann. In diesem Fall ist es s3://crawler-public-us-east-1/flight/2016/csv. Nachdem Sie den Pfad eingegeben haben, ändert sich der Titel dieses Feldes zu Include path (Pfad hinzufügen). Wählen Sie Next (Weiter).
Sie können mehrere Datenspeicher mit einem einzigen Crawler durchsuchen. In diesem Tutorial verwenden wir jedoch nur einen einzelnen Datenspeicher. Wählen Sie daher No (Nein) aus und danach Next (Weiter).
Der Crawler benötigt Berechtigungen, um auf den Datenspeicher zuzugreifen und Objekte im AWS Glue Data Catalog. Um diese Berechtigungen zu konfigurieren, wählen Sie Create an IAM-Rolle. Der Name der IAM-Rolle beginnt mit AWSGlueServiceRole-. Im Feld geben Sie den letzten Teil des Rollennamens ein. Geben Sie CrawlerTutorial ein und wählen Sie Next (Weiter) aus.

Anmerkung
Um eine IAM-Rolle zu erstellen, muss Ihr AWS Benutzer die Berechtigungen CreateRole, CreatePolicy und AttachRolePolicy haben.

Der Assistent erstellt eine IAM-Rolle mit dem NamenAWSGlueServiceRole-CrawlerTutorial, hängt die AWS verwaltete Richtlinie an diese Rolle AWSGlueServiceRole an und fügt eine Inline-Richtlinie hinzu, die Lesezugriff auf den Amazon S3 S3-Standort ermöglicht. s3://crawler-public-us-east-1/flight/2016/csv
Erstellen Sie einen Zeitplan für den Crawler. Wählen Sie bei Frequency (Häufigkeit) die Option Run on demand (Bei Bedarf ausführen) aus und danach Next (Weiter).
Crawler erstellen in Ihrem Data Catalog Tabellen. Tabellen befinden sich in einer Datenbank im Data Catalog. Wählen Sie zuerst Add a databse (Datenbank hinzufügen), um eine Datenbank zu erstellen. Geben Sie im Popup-Fenster test-flights-db als Datenbankname ein und wählen Sie dann Create (Erstellen) aus.

Geben Sie als Nächstes flights bei Prefix added to tables (Präfix für Tabellen) ein. Lassen Sie bei den restlichen Feldern die Standardwerte stehen und wählen Sie Next (Weiter) aus.
Überprüfen Sie die Eingaben im Assistenten Add crawler (Crawler hinzufügen). Wenn Sie Fehler bemerken, können Sie mit Back (Zurück) zu den vorherigen Seiten zurück und Änderungen vorzunehmen.

Nachdem Sie alles überprüft haben, wählen Sie Finish (Abschließen) aus, um den Crawler zu erstellen.

Schritt 2: Den Crawler ausführen

Nachdem Sie einen Crawler erstellt haben, leitet Sie der Assistenten zur Ansicht des Crawlers weiter. Da Sie den Crawler mit einem On-Demand-Zeitplan erstellen, haben Sie die Möglichkeit, den Crawler auszuführen.

Den Crawler ausführen

Das Banner am oberen Rand dieser Seite zeigt Ihnen, dass der Crawler erstellt wurde. Es fragt, ob Sie ihn jetzt ausführen möchten. Wählen Sie Run it now? (Jetzt ausführen?) aus, um den Crawler auszuführen.

Das Banner ändert sich und zeigt jetzt die Meldungen „Attempting to run (Ausführung wird versucht)“ und „Running (Wird ausgeführt)“ für den Crawler an. Nachdem der Crawler gestartet wurde, verschwindet das Banner. Die Crawler-Anzeige ist nun aktualisiert und zeigt den Status „Starting (Wird gestartet)“. Nach einer Minute können Sie das Symbol zum Aktualisieren (Refresh) auswählen, um den aktuellen Status des Crawlers abzurufen, der in der Tabelle angezeigt wird.
Wenn der Crawler fertig ist, erscheint wieder ein Banner, das die vom Crawler vorgenommenen Änderungen beschreibt. Sie können den test-flights-dbLink wählen, um die Datenkatalogobjekte anzuzeigen.

Schritt 3: Ansehen AWS Glue Data Catalog objects

Der Crawler liest Daten am Quellspeicherort und erstellt Tabellen im Data Catalog. Eine Tabelle ist eine Metadatendefinition, die Ihre Daten sowie deren Schema repräsentiert. Die Tabellen im Data Catalog enthalten keine Daten. Stattdessen verwenden Sie diese Tabellen als Quelle oder Ziel bei Auftragsdefinitionen.

Die vom Crawler erstellten Data-Catalog-Objekte anzeigen

Wählen Sie im Navigationsbereich links unter Data catalog die Option Databases (Datenbanken) aus. Hier können Sie die Datenbank flights-db sehen, die vom Crawler erstellt wurde.
Wählen Sie im Navigationsbereich links unter Data catalog und unterhalb von Databases (Datenbanken) die Option Tables (Tabellen) aus. Hier können Sie die Tabelle flightscsv sehen, die vom Crawler erstellt wurde. Wenn Sie den Tabellennamen auswählen, können Sie die Tabelleneinstellungen, Parameter und Eigenschaften sehen. Wenn Sie in dieser Ansicht nach unten scrollen, sehen Sie das Schema, das Informationen zu den Spalten und Datentypen der Tabelle enthält.
Über View partitions (Partitionen anzeigen) auf der Tabellenansichtsseite können Sie die Partitionen sehen, die für die Daten erstellt wurden. In der ersten Spalte steht der Partitionsschlüssel.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einrichtung eines Crawlers für Amazon S3 S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle

Manuelles Definieren von Metadaten

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Tutorial: Hinzufügen eines AWS Glue Crawler

Themen

Voraussetzungen

Schritt 1: Einen Crawler erstellen

Einen Crawler erstellen, der Dateien auf Amazon S3 liest

Anmerkung

Schritt 2: Den Crawler ausführen

Den Crawler ausführen

Schritt 3: Ansehen AWS Glue Data Catalog objects

Die vom Crawler erstellten Data-Catalog-Objekte anzeigen

Auf dieser Seite

Related resources

Hat Ihnen diese Seite geholfen?

Related resources

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Der Screenshot zeigt die Crawler-Seite. Von dort aus können Sie einen Crawler erstellen oder einen vorhandenen Crawler bearbeiten, duplizieren, löschen oder anzeigen.