Automatisez les EMR clusters Amazon récurrents avec AWS Data Pipeline

AWS Data Pipeline est un service qui automatise le mouvement et la transformation des données. Vous pouvez l'utiliser pour planifier le transfert de données d'entrée dans Amazon S3 et pour planifier le lancement de clusters pour traiter ces données. Imaginons par exemple que vous avez un serveur Web qui enregistre des journaux de trafic. Si vous souhaitez exécuter un cluster hebdomadaire pour analyser les données de trafic, vous pouvez l'utiliser AWS Data Pipeline pour planifier ces clusters. AWS Data Pipeline est un flux de travail piloté par les données, de sorte qu'une tâche (lancement du cluster) peut dépendre d'une autre tâche (déplacement des données d'entrée vers Amazon S3). Il possède également une puissante fonctionnalité pour les nouvelles tentatives.

Pour plus d'informations AWS Data Pipeline, consultez le guide du AWS Data Pipeline développeur, en particulier les didacticiels concernant Amazon EMR :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Cloner un cluster

Résoudre les problèmes liés aux clusters Amazon EMR