Erste Schritte mit AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit AWS Data Pipeline

Mit AWS Data Pipeline können Sie regelmäßige Arbeitslasten zur Datenverarbeitung sequenzieren, planen, ausführen und verwalten – zuverlässig und kosteneffizient. Dieser Service erleichtert Ihnen das Entwerfen von extract-transform-load (ETL-) Aktivitäten mithilfe strukturierter und unstrukturierter Daten, sowohl vor Ort als auch in der Cloud, auf der Grundlage Ihrer Geschäftslogik.

Um AWS Data Pipeline zu nutzen, erstellen Sie eine Pipeline-Definition, die die Geschäftslogik für die Datenverarbeitung festlegt. Eine typische Pipeline-Definition besteht aus Aktivitäten, die die auszuführende Arbeit definieren, und Datenknoten, die den Ort und Typ der Eingabe- und Ausgabedaten definieren.

In diesem Tutorial führen Sie ein Shell-Befehlsskript aus, das die Anzahl der GET-Anforderungen in Apache-Webserverprotokollen zählt. Diese Pipeline läuft eine Stunde lang alle 15 Minuten und schreibt bei jeder Iteration die Ausgabe in Amazon S3.

Voraussetzungen

Bevor Sie beginnen, führen Sie die Aufgaben in Einrichtung für AWS Data Pipeline durch.

Pipeline-Objekte

Die Pipeline verwendet die folgenden Objekte:

ShellCommandActivity

Liest die Eingabeprotokolldatei und zählt die Anzahl an Fehlern.

S3 DataNode (Eingabe)

Der S3-Bucket, der die Eingabeprotokolldatei enthält.

S3 DataNode (Ausgabe)

Der S3-Bucket für die Ausgabe.

Ec2Resource

Die Datenverarbeitungsressource, mit der AWS Data Pipeline die Aktivität ausführt.

Hinweis: Wenn Sie eine große Menge an Protokolldateidaten haben, können Sie Ihre Pipeline so konfigurieren, dass zum Verarbeiten der Dateien ein EMR-Cluster anstelle einer EC2 Instance verwendet wird.

Plan

Legt fest, dass die Aktivität alle 15 Minuten eine Stunde lang ausgeführt wird.

Erstellen Sie die Pipeline

Die schnellste Möglichkeit zum Einstieg in AWS Data Pipeline ist die Verwendung einer Pipeline-Definition namens Vorlage.

So erstellen Sie die Pipeline
  1. Öffnen Sie die AWS Data Pipeline Konsole unter https://console.aws.amazon.com/datapipeline/.

  2. Wählen Sie auf der Navigationsleiste eine Region aus. Sie können unabhängig von Ihrem Standort jede verfügbare Region auswählen. Viele AWS-Ressourcen sind spezifisch für eine Region, aber AWS Data Pipeline ermöglicht Ihnen die Verwendung von Ressourcen, die zu einer anderen Region gehören als die Pipeline.

  3. Der erste Bildschirm, den Sie sehen, hängt davon ab, ob Sie in der aktuellen Region eine Pipeline erstellt haben.

    1. Wenn Sie in dieser Region keine Pipeline erstellt haben, zeigt die Konsole einen Einführungsbildschirm an. Wählen Sie Get started now.

    2. Wenn Sie in dieser Region bereits eine Pipeline erstellt haben, zeigt die Konsole eine Seite an, auf der Ihre Pipelines für die Region aufgeführt sind. Wählen Sie Create new pipeline (Neue Pipeline erstellen) aus.

  4. Geben Sie unter Name einen Namen für Ihre Pipeline ein.

  5. (Optional) Geben Sie im Feld Beschreibung eine Beschreibung für Ihre Pipeline ein.

  6. Wählen Sie unter Quelle die Option Mithilfe einer Vorlage erstellen aus und wählen Sie dann die folgende Vorlage aus: Erste Schritte mit ShellCommandActivity.

  7. Nach der Auswahl der Vorlage öffnet sich der Abschnitt Parameters. Behalten Sie dort die Standardwerte für S3 input folder und Shell command to run bei. Klicken Sie neben S3 output folder auf das Ordnersymbol, wählen Sie einen Ihrer Buckets oder Ordner aus und klicken Sie anschließend auf Select.

  8. Behalten Sie unter Schedule die Standardwerte bei. Wenn Sie die Pipeline aktivieren, beginnen die Pipeline-Ausführungen und werden alle 15 Minuten eine Stunde lang ausgeführt.

    Wenn Sie möchten, können Sie stattdessen auch die Option Run once on pipeline activation auswählen.

  9. Lassen Sie unter Pipeline-Konfiguration die Protokollierung aktiviert. Wählen Sie das Ordnersymbol unter S3-Speicherort für Protokolle, wählen Sie einen Ihrer Buckets oder Ordner aus und wählen Sie dann Auswählen.

    Wenn Sie möchten, können Sie stattdessen die Protokollierung deaktivieren.

  10. Belassen Sie unter Sicherheit/Zugriff die IAM-Rollen auf Standard.

  11. Klicken Sie auf Activate.

    Wenn Sie möchten, können Sie in Architect Bearbeiten wählen, um diese Pipeline zu ändern. Sie können beispielsweise Vorbedingungen hinzufügen.

Überwachen der ausgeführten Pipeline

Nachdem Sie Ihre Pipeline aktiviert haben, können Sie auf die Seite Execution details gehen, wo Sie den Fortschritt Ihrer Pipeline überwachen können.

So überwachen Sie den Fortschritt Ihrer Pipeline
  1. Klicken Sie auf Update oder drücken Sie F5, um den angezeigten Status zu aktualisieren.

    Tipp

    Wenn keine Ausführungen aufgelistet sind, stellen Sie sicher, dass Start (in UTC) und End (in UTC) die geplante Start- und Endzeit Ihrer Pipeline abdecken, und klicken Sie dann auf Update.

  2. Wenn der Status jedes Objekt in der Pipeline FINISHED ist, hat Ihre Pipeline die geplanten Tasks erfolgreich fertiggestellt.

  3. Wenn Ihre Pipeline nicht erfolgreich abgeschlossen wurde, überprüfen Sie Ihre Pipeline-Einstellungen auf Probleme. Weitere Informationen zur Fehlerbehebung bei fehlgeschlagenen oder unvollständigen Instance-Ausführungen Ihrer Pipeline finden Sie unter Beheben typischer Probleme.

Anzeigen der Ausgabe

Öffnen Sie die Amazon S3-Konsole und navigieren Sie zu Ihrem Bucket. Wenn Sie Ihre Pipeline alle 15 Minuten eine Stunde lang ausgeführt haben, sehen Sie vier Unterordner mit Zeitstempeln. Jeder Unterordner enthält die Ausgabe in einer Datei mit dem Namen output.txt. Da wir das Skript jedes Mal auf derselben Eingabedatei ausgeführt haben, sind die Ausgabedateien identisch.

Löschen der Pipeline

Löschen Sie Ihre Pipeline, damit keine Gebühren mehr anfallen. Wenn Sie Ihre Pipeline löschen, werden die Pipeline-Definition und alle zugehörigen Objekte gelöscht.

Um deine Pipeline zu löschen
  1. Wählen Sie auf der Seite „Pipelines auflisten“ Ihre Pipeline aus.

  2. Klicken Sie auf Aktionen und wählen Sie dann Löschen.

  3. Wenn Sie zur Bestätigung aufgefordert werden, wählen Sie Delete (Löschen).

Wenn Sie mit der Ausgabe aus diesem Tutorial fertig sind, löschen Sie die Ausgabeordner aus Ihrem Amazon S3-Bucket.