

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Erste Schritte mit AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline hilft Ihnen dabei, wiederkehrende Datenverarbeitungs-Workloads zuverlässig und kostengünstig zu sequenzieren, zu planen, auszuführen und zu verwalten. Dieser Service erleichtert Ihnen das Entwerfen extract-transform-load (ETL) -Aktivitäten mithilfe strukturierter und unstrukturierter Daten, sowohl vor Ort als auch in der Cloud, auf der Grundlage Ihrer Geschäftslogik.

Zur Verwendung AWS Data Pipeline erstellen Sie eine *Pipeline-Definition*, die die Geschäftslogik für Ihre Datenverarbeitung festlegt. Eine typische Pipeline-Definition besteht aus [Aktivitäten](dp-concepts-activities.md), die die auszuführende Arbeit definieren, und [Datenknoten](dp-concepts-datanodes.md), die den Ort und die Art der Eingabe- und Ausgabedaten definieren.

In diesem Tutorial führen Sie ein Shell-Befehlsskript aus, das die Anzahl der GET-Anforderungen in Apache-Webserverprotokollen zählt. Diese Pipeline läuft eine Stunde lang alle 15 Minuten und schreibt bei jeder Iteration die Ausgabe in Amazon S3.

**Voraussetzungen**  
Bevor Sie beginnen, führen Sie die Aufgaben in [Einrichtung für AWS Data Pipeline](dp-get-setup.md) durch.

**Pipeline-Objekte**  
Die Pipeline verwendet die folgenden Objekte:

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
Liest die Eingabeprotokolldatei und zählt die Anzahl an Fehlern.

[S3 DataNode](dp-object-s3datanode.md) (Eingabe)  
Der S3-Bucket, der die Eingabeprotokolldatei enthält.

[S3 DataNode](dp-object-s3datanode.md) (Ausgabe)  
Der S3-Bucket für die Ausgabe.

[Ec2Resource](dp-object-ec2resource.md)  
Die Rechenressource, die zur Ausführung der Aktivität AWS Data Pipeline verwendet wird.  
Beachten Sie, dass Sie, wenn Sie über eine große Menge an Protokolldateidaten verfügen, Ihre Pipeline so konfigurieren können, dass anstelle einer EC2 Instanz ein EMR-Cluster zur Verarbeitung der Dateien verwendet wird.

[Plan](dp-object-schedule.md)  
Legt fest, dass die Aktivität alle 15 Minuten eine Stunde lang ausgeführt wird.

**Topics**
+ [Erstellen Sie die Pipeline](#dp-getting-started-create)
+ [Überwachen der ausgeführten Pipeline](#dp-getting-started-monitor)
+ [Anzeigen der Ausgabe](#dp-getting-started-output)
+ [Löschen der Pipeline](#dp-getting-started-delete)

## Erstellen Sie die Pipeline
<a name="dp-getting-started-create"></a>

*Der schnellste Weg, damit zu beginnen, AWS Data Pipeline ist die Verwendung einer Pipeline-Definition, die als Vorlage bezeichnet wird.*

**So erstellen Sie die Pipeline**

1. Öffnen Sie die AWS Data Pipeline Konsole unter. [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/)

1. Wählen Sie auf der Navigationsleiste eine Region aus. Sie können unabhängig von Ihrem Standort jede verfügbare Region auswählen. Viele AWS-Ressourcen sind regionsspezifisch, AWS Data Pipeline ermöglichen es Ihnen jedoch, Ressourcen zu verwenden, die sich in einer anderen Region als der Pipeline befinden.

1. Der erste Bildschirm, der angezeigt wird, hängt davon ab, ob Sie in der aktuellen Region eine Pipeline erstellt haben.

   1. Wenn Sie in dieser Region keine Pipeline erstellt haben, zeigt die Konsole einen Einführungsbildschirm an. Wählen Sie **Get started now**.

   1. Wenn Sie in dieser Region bereits eine Pipeline erstellt haben, zeigt die Konsole eine Seite an, auf der Ihre Pipelines für die Region aufgeführt sind. Wählen Sie **Create new pipeline** (Neue Pipeline erstellen) aus.

1. Geben Sie im Feld **Name** einen Namen für Ihre Pipeline ein.

1. (Optional) Geben Sie **unter Beschreibung** eine Beschreibung für Ihre Pipeline ein.

1. Wählen Sie unter **Quelle** die Option **Mit einer Vorlage erstellen** und dann die folgende Vorlage aus: **Erste Schritte mit ShellCommandActivity**.

1. Nach der Auswahl der Vorlage öffnet sich der Abschnitt **Parameters**. Behalten Sie dort die Standardwerte für **S3 input folder** und **Shell command to run** bei. Klicken Sie neben **S3 output folder** auf das Ordnersymbol, wählen Sie einen Ihrer Buckets oder Ordner aus und klicken Sie anschließend auf **Select**.

1. Behalten Sie unter **Schedule** die Standardwerte bei. Wenn Sie die Pipeline aktivieren, beginnen die Pipeline-Ausführungen und werden alle 15 Minuten eine Stunde lang ausgeführt.

   Wenn Sie möchten, können Sie stattdessen auch die Option **Run once on pipeline activation** auswählen.

1. Lassen Sie unter **Pipeline-Konfiguration** die Protokollierung aktiviert. Wählen Sie das Ordnersymbol unter **S3-Speicherort für Protokolle**, wählen Sie einen Ihrer Buckets oder Ordner aus und wählen Sie dann **Auswählen aus**.

   Wenn Sie möchten, können Sie stattdessen die Protokollierung deaktivieren.

1. **Lassen Sie unter **Sicherheit/Zugriff** die **IAM-Rollen auf Standard** eingestellt.**

1. Klicken Sie auf **Activate**.

   Wenn Sie möchten, können Sie **„In Architect bearbeiten“ wählen, um diese Pipeline** zu ändern. Sie können beispielsweise Vorbedingungen hinzufügen.

## Überwachen der ausgeführten Pipeline
<a name="dp-getting-started-monitor"></a>

Nachdem Sie Ihre Pipeline aktiviert haben, können Sie auf die Seite **Execution details** gehen, wo Sie den Fortschritt Ihrer Pipeline überwachen können.

**So überwachen Sie den Fortschritt Ihrer Pipeline**

1. Klicken Sie auf **Update** oder drücken Sie F5, um den angezeigten Status zu aktualisieren.
**Tipp**  
Wenn keine Ausführungen aufgelistet sind, stellen Sie sicher, dass **Start (in UTC)** und **End (in UTC)** die geplante Start- und Endzeit Ihrer Pipeline abdecken, und klicken Sie dann auf **Update**.

1. Wenn der Status jedes Objekt in der Pipeline `FINISHED` ist, hat Ihre Pipeline die geplanten Tasks erfolgreich fertiggestellt.

1. Wenn Ihre Pipeline nicht erfolgreich abgeschlossen wurde, überprüfen Sie Ihre Pipeline-Einstellungen auf Probleme. Weitere Informationen zur Fehlerbehebung bei fehlgeschlagenen oder unvollständigen Instance-Ausführungen Ihrer Pipeline finden Sie unter [Beheben typischer Probleme](dp-check-when-run-fails.md).

## Anzeigen der Ausgabe
<a name="dp-getting-started-output"></a>

Öffnen Sie die Amazon S3 S3-Konsole und navigieren Sie zu Ihrem Bucket. Wenn Sie Ihre Pipeline alle 15 Minuten eine Stunde lang ausgeführt haben, sehen Sie vier Unterordner mit Zeitstempeln. Jeder Unterordner enthält die Ausgabe in einer Datei mit dem Namen `output.txt`. Da wir das Skript jedes Mal auf derselben Eingabedatei ausgeführt haben, sind die Ausgabedateien identisch.

## Löschen der Pipeline
<a name="dp-getting-started-delete"></a>

Um keine Gebühren mehr anfallen zu lassen, löschen Sie Ihre Pipeline. Beim Löschen Ihrer Pipeline werden die Pipeline-Definition und alle zugehörigen Objekte gelöscht.

**Um Ihre Pipeline zu löschen**

1. Wählen Sie auf der Seite **Pipelines auflisten** Ihre Pipeline aus.

1. Klicken Sie auf **Aktionen** und wählen Sie dann **Löschen** aus.

1. Wenn Sie zur Bestätigung aufgefordert werden, wählen Sie **Delete (Löschen)**.

Wenn Sie mit der Ausgabe dieses Tutorials fertig sind, löschen Sie die Ausgabeordner aus Ihrem Amazon S3 S3-Bucket.