Automatisez les EMR clusters Amazon récurrents avec AWS Data Pipeline - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Automatisez les EMR clusters Amazon récurrents avec AWS Data Pipeline

AWS Data Pipeline est un service qui automatise le mouvement et la transformation des données. Vous pouvez l'utiliser pour planifier le transfert de données d'entrée dans Amazon S3 et pour planifier le lancement de clusters pour traiter ces données. Imaginons par exemple que vous avez un serveur Web qui enregistre des journaux de trafic. Si vous souhaitez exécuter un cluster hebdomadaire pour analyser les données de trafic, vous pouvez l'utiliser AWS Data Pipeline pour planifier ces clusters. AWS Data Pipeline est un flux de travail piloté par les données, de sorte qu'une tâche (lancement du cluster) peut dépendre d'une autre tâche (déplacement des données d'entrée vers Amazon S3). Il possède également une puissante fonctionnalité pour les nouvelles tentatives.

Pour plus d'informations AWS Data Pipeline, consultez le guide du AWS Data Pipeline développeur, en particulier les didacticiels concernant Amazon EMR :