

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. [En savoir plus](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Commencer avec AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline vous permet de séquencer, de planifier, d'exécuter et de gérer les charges de travail récurrentes liées au traitement des données de manière fiable et rentable. Ce service vous permet de concevoir facilement des activités extract-transform-load (ETL) à l'aide de données structurées et non structurées, sur site et dans le cloud, en fonction de votre logique métier.

Pour l'utiliser AWS Data Pipeline, vous créez une *définition de pipeline* qui spécifie la logique métier pour le traitement de vos données. Une définition de pipeline typique comprend des [activités](dp-concepts-activities.md) qui définissent le travail à effectuer et des [nœuds de données](dp-concepts-datanodes.md) qui définissent l'emplacement et le type des données d'entrée et de sortie.

Dans ce tutoriel, vous exécutez un script de commande shell qui compte le nombre de demandes GET dans les journaux du serveur web Apache. Ce pipeline s'exécute toutes les 15 minutes pendant une heure et écrit le résultat dans Amazon S3 à chaque itération.

**Conditions préalables**  
Avant de commencer, complétez les tâches détaillées dans [Configuration pour AWS Data Pipeline](dp-get-setup.md).

**Objets de pipeline**  
Le pipeline utilise les objets suivants :

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
Lit le fichier journal en entrée et compte le nombre d'erreurs.

[S3 DataNode](dp-object-s3datanode.md) (input)  
Compartiment S3 qui contient le fichier journal en entrée.

[S3 DataNode](dp-object-s3datanode.md) (sortie)  
Compartiment S3 de la sortie.

[Ec2Resource](dp-object-ec2resource.md)  
La ressource de calcul AWS Data Pipeline utilisée pour effectuer l'activité.  
Notez que si vous disposez d'une grande quantité de données de fichier journal, vous pouvez configurer votre pipeline pour utiliser un cluster EMR pour traiter les fichiers au lieu d'une EC2 instance.

[Planning](dp-object-schedule.md)  
Définit que l'activité est exécutée toutes les 15 minutes pendant une heure.

**Topics**
+ [Création du pipeline](#dp-getting-started-create)
+ [Surveillance de l'exécution du pipeline](#dp-getting-started-monitor)
+ [Affichage de la sortie](#dp-getting-started-output)
+ [Suppression du pipeline](#dp-getting-started-delete)

## Création du pipeline
<a name="dp-getting-started-create"></a>

Le moyen le plus rapide de commencer AWS Data Pipeline est d'utiliser une définition de pipeline appelée *modèle*.

**Pour créer le pipeline**

1. Ouvrez la AWS Data Pipeline console à l'adresse [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/).

1. Dans la barre de navigation, sélectionnez une région. Vous pouvez sélectionner n'importe quelle région disponible, quel que soit votre emplacement. De nombreuses ressources AWS sont spécifiques à une région, mais vous AWS Data Pipeline permettent d'utiliser des ressources situées dans une région différente de celle du pipeline.

1. Le premier écran qui s'affiche dépend de la création ou non d'un pipeline dans la région actuelle.

   1. Si vous n'avez pas créé de pipeline dans cette région, la console affiche un écran d'introduction. Sélectionnez **Pour commencer**.

   1. Si vous avez déjà créé un pipeline dans cette région, la console affiche une page répertoriant vos pipelines pour la région. Choisissez **Create new pipeline**.

1. Dans **Nom**, entrez le nom de votre pipeline.

1. (Facultatif) Dans **Description**, entrez une description pour votre pipeline.

1. Pour **Source**, sélectionnez **Créer à l'aide d'un modèle**, puis sélectionnez le modèle suivant : **Getting Started using ShellCommandActivity**.

1. Dans la section **Parameters**, qui s'est ouverte quand vous avez sélectionné le modèle, conservez les valeurs par défaut de **S3 input folder** et de **Shell command to run**. Cliquez sur l'icône de dossier en regard de **S3 output folder**, sélectionnez l'un de vos compartiments ou dossiers, puis cliquez sur **Select**.

1. Sous **Schedule**, conservez les valeurs par défaut. Lorsque vous activez le pipeline, le pipeline exécute le démarrage, puis poursuit toutes les 15 minutes pendant une heure.

   Si vous préférez, vous pouvez sélectionner **Run once on pipeline activation**.

1. Sous **Configuration du pipeline**, laissez la journalisation activée. Cliquez sur l'icône du dossier sous **Emplacement S3 pour les journaux**, sélectionnez l'un de vos compartiments ou dossiers, puis **sélectionnez Sélectionner**.

   Si vous préférez, vous pouvez désactiver la journalisation à la place.

1. **Sous **Sécurité/Accès**, laissez les **rôles IAM** définis sur Par défaut.**

1. Cliquez sur **Activate**.

   Si vous préférez, vous pouvez choisir **Modifier dans Architect** pour modifier ce pipeline. Par exemple, vous pouvez ajouter des conditions préalables.

## Surveillance de l'exécution du pipeline
<a name="dp-getting-started-monitor"></a>

Une fois que vous avez activé votre pipeline, vous êtes redirigé vers la page **Execution details** où vous pouvez surveiller la progression de votre pipeline.

**Pour surveiller la progression de votre pipeline**

1. Cliquez sur **Update** ou appuyez sur F5 pour mettre à jour le statut affiché.
**Astuce**  
Si aucune exécution n'est affichée, assurez-vous que les valeurs **Start (in UTC)** et **End (in UTC)** couvrent les début et fin planifiés de votre pipeline, puis cliquez sur **Update**.

1. Lorsque le statut de tous les objets de votre pipeline est `FINISHED`, votre pipeline a terminé avec succès l'exécution de tâches planifiées.

1. Si votre pipeline ne s'est pas terminé avec succès, vérifiez les paramètres de votre pipeline à la recherche d'éventuels problèmes. Pour plus d'informations sur le dépannage des exécutions d'instance en échec ou incomplètes de votre pipeline, consultez [Résolution des problèmes courants](dp-check-when-run-fails.md).

## Affichage de la sortie
<a name="dp-getting-started-output"></a>

Ouvrez la console Amazon S3 et accédez à votre compartiment. Si vous avez exécuté votre pipeline toutes les 15 minutes pendant une heure, quatre sous-dossiers horodatés s'affichent. Chaque sous-dossier contient la sortie dans un fichier nommé `output.txt`. Dans la mesure où nous avons exécuté le script sur le même fichier d'entrée à chaque fois, les fichiers de sortie sont identiques.

## Suppression du pipeline
<a name="dp-getting-started-delete"></a>

Pour arrêter d'encourir des frais, supprimez votre pipeline. La suppression de votre pipeline entraîne la suppression de la définition du pipeline et de tous les objets associés.

**Pour supprimer votre pipeline**

1. Sur la page **Lister les pipelines**, sélectionnez votre pipeline.

1. Cliquez sur **Actions**, puis **sur Supprimer**.

1. Lorsque vous êtes invité à confirmer l’opération, choisissez **Supprimer**.

Si vous avez terminé le résultat de ce didacticiel, supprimez les dossiers de sortie de votre compartiment Amazon S3.