Tutorial: Hinzufügen eines AWS Glue-Crawlers - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tutorial: Hinzufügen eines AWS Glue-Crawlers

In diesem AWS Glue-Beispiel werden Sie aufgefordert, Ankunftsdaten für große Luftfahrtunternehmen zu analysieren und so das monatliche Flugaufkommen bei verschiedenen Abflugflughäfen zu berechnen. Sie haben Flugdaten für das Jahr 2016 im CSV-Format in Amazon S3 gespeichert. Bevor Sie die Daten transformieren und analysieren, katalogisieren Sie die Metadaten im AWS Glue Data Catalog.

In diesem Tutorial wollen wir einen Crawler nutzen, der Metadaten aus diesen Flugprotokollen in Amazon S3 ableitet und eine Tabelle in Ihrem Data Catalog erstellt.

Voraussetzungen

Dieses Tutorial setzt voraus, dass Sie ein AWS-Konto sowie Zugriff auf AWS Glue haben.

Schritt 1: Einen Crawler erstellen

Die folgenden Schritte zeigen, wie Sie einen Crawler konfigurieren und ausführen, der die Metadaten aus einer CSV-Datei in Amazon S3 extrahiert.

Einen Crawler erstellen, der Dateien auf Amazon S3 liest
  1. Wählen Sie auf der Konsole des Services AWS Glue im Menü links die Option Crawlers aus.

  2. Wählen Sie auf der Crawlers-Seite die Option Crawler erstellen aus. Es erscheint eine Folge von Seiten, auf denen Sie Details zum Crawler eingeben sollen.

    Der Screenshot zeigt die Crawler-Seite. Von dort aus können Sie einen Crawler erstellen oder einen vorhandenen Crawler bearbeiten, duplizieren, löschen oder anzeigen.
  3. Geben Sie im Namensfeld des Crawlers Flights Data Crawler ein und wählen Sie Next (Weiter) aus.

    Crawler rufen Classifier auf, um das Schema Ihrer Daten abzuleiten. In diesem Tutorial wird standardmäßig der integrierte Classifier für CSV verwendet.

  4. Wählen Sie für den Crawler-Quelltyp die Option Data stores (Datenspeicher) und anschließend Next (Weiter) aus.

  5. Jetzt wollen wir den Crawler auf Ihre Daten verweisen. Wählen Sie auf der Seite Add a data store (Datenspeicher hinzufügen) den Datenspeicher „Amazon S3“ aus. In diesem Tutorial wird keine Verbindung verwendet. Lassen Sie daher das Feld Connection (Verbindung) leer, wenn Sie es sehen.

    Wählen Sie unter Crawl data in (Daten durchsuchen in) die Option Specified path in another account (Angegebener Pfad in einem anderen Konto) aus. Geben Sie dann bei Include path (Pfad hinzufügen) den Pfad ein, in dem der Crawler die Flugdaten finden kann. In diesem Fall ist es s3://crawler-public-us-east-1/flight/2016/csv. Nachdem Sie den Pfad eingegeben haben, ändert sich der Titel dieses Feldes zu Include path (Pfad hinzufügen). Wählen Sie Next (Weiter).

  6. Sie können mehrere Datenspeicher mit einem einzigen Crawler durchsuchen. In diesem Tutorial verwenden wir jedoch nur einen einzelnen Datenspeicher. Wählen Sie daher No (Nein) aus und danach Next (Weiter).

  7. Der Crawler benötigt Berechtigungen, um auf den Datenspeicher zuzugreifen und Objekte im AWS Glue Data Catalog erstellen zu können. Um diese Berechtigungen zu konfigurieren, wählen Sie Create an IAM role (IAM-Rolle erstellen) aus. Der Name der IAM-Rolle beginnt mit AWSGlueServiceRole-. Im Feld geben Sie den letzten Teil des Rollennamens ein. Geben Sie CrawlerTutorial ein und wählen Sie Next (Weiter) aus.

    Anmerkung

    Um eine IAM-Rolle zu erstellen, muss Ihr AWS Benutzer die Berechtigungen CreateRole, CreatePolicy und AttachRolePolicy haben.

    Der Assistent erstellt eine IAM-Rolle namens AWSGlueServiceRole-CrawlerTutorial und teilt ihr neben der verwalteten AWS-Richtlinie AWSGlueServiceRole auch eine Inline-Richtlinie zu, die ihr Lesezugriff auf den Amazon-S3-Speicherort s3://crawler-public-us-east-1/flight/2016/csv gibt.

  8. Erstellen Sie einen Zeitplan für den Crawler. Wählen Sie bei Frequency (Häufigkeit) die Option Run on demand (Bei Bedarf ausführen) aus und danach Next (Weiter).

  9. Crawler erstellen in Ihrem Data Catalog Tabellen. Tabellen befinden sich in einer Datenbank im Data Catalog. Wählen Sie zuerst Add a databse (Datenbank hinzufügen), um eine Datenbank zu erstellen. Geben Sie im Popup-Fenster test-flights-db als Datenbankname ein und wählen Sie dann Create (Erstellen) aus.

    Geben Sie als Nächstes flights bei Prefix added to tables (Präfix für Tabellen) ein. Lassen Sie bei den restlichen Feldern die Standardwerte stehen und wählen Sie Next (Weiter) aus.

  10. Überprüfen Sie die Eingaben im Assistenten Add crawler (Crawler hinzufügen). Wenn Sie Fehler bemerken, können Sie mit Back (Zurück) zu den vorherigen Seiten zurück und Änderungen vorzunehmen.

    Nachdem Sie alles überprüft haben, wählen Sie Finish (Abschließen) aus, um den Crawler zu erstellen.

Schritt 2: Den Crawler ausführen

Nachdem Sie einen Crawler erstellt haben, leitet Sie der Assistenten zur Ansicht des Crawlers weiter. Da Sie den Crawler mit einem On-Demand-Zeitplan erstellen, haben Sie die Möglichkeit, den Crawler auszuführen.

Den Crawler ausführen
  1. Das Banner am oberen Rand dieser Seite zeigt Ihnen, dass der Crawler erstellt wurde. Es fragt, ob Sie ihn jetzt ausführen möchten. Wählen Sie Run it now? (Jetzt ausführen?) aus, um den Crawler auszuführen.

    Das Banner ändert sich und zeigt jetzt die Meldungen „Attempting to run (Ausführung wird versucht)“ und „Running (Wird ausgeführt)“ für den Crawler an. Nachdem der Crawler gestartet wurde, verschwindet das Banner. Die Crawler-Anzeige ist nun aktualisiert und zeigt den Status „Starting (Wird gestartet)“. Nach einer Minute können Sie das Symbol zum Aktualisieren (Refresh) auswählen, um den aktuellen Status des Crawlers abzurufen, der in der Tabelle angezeigt wird.

  2. Wenn der Crawler fertig ist, erscheint wieder ein Banner, das die vom Crawler vorgenommenen Änderungen beschreibt. Mit der Option test-flights-db können Sie sich die Data-Catalog-Objekte anzeigen lassen.

Schritt 3: AWS Glue Data Catalog-Objekte anzeigen

Der Crawler liest Daten am Quellspeicherort und erstellt Tabellen im Data Catalog. Eine Tabelle ist eine Metadatendefinition, die Ihre Daten sowie deren Schema repräsentiert. Die Tabellen im Data Catalog enthalten keine Daten. Stattdessen verwenden Sie diese Tabellen als Quelle oder Ziel bei Auftragsdefinitionen.

Die vom Crawler erstellten Data-Catalog-Objekte anzeigen
  1. Wählen Sie im Navigationsbereich links unter Data catalog die Option Databases (Datenbanken) aus. Hier können Sie die Datenbank flights-db sehen, die vom Crawler erstellt wurde.

  2. Wählen Sie im Navigationsbereich links unter Data catalog und unterhalb von Databases (Datenbanken) die Option Tables (Tabellen) aus. Hier können Sie die Tabelle flightscsv sehen, die vom Crawler erstellt wurde. Wenn Sie den Tabellennamen auswählen, können Sie die Tabelleneinstellungen, Parameter und Eigenschaften sehen. Wenn Sie in dieser Ansicht nach unten scrollen, sehen Sie das Schema, das Informationen zu den Spalten und Datentypen der Tabelle enthält.

  3. Über View partitions (Partitionen anzeigen) auf der Tabellenansichtsseite können Sie die Partitionen sehen, die für die Daten erstellt wurden. In der ersten Spalte steht der Partitionsschlüssel.