Migration des charges de travail depuis AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Migration des charges de travail depuis AWS Data Pipeline

AWS a lancé le AWS Data Pipeline service en 2012. À l'époque, les clients recherchaient un service qui les aiderait à déplacer des données de manière fiable entre différentes sources de données à l'aide de diverses options de calcul. Maintenant, il existe d'autres services qui offrent une meilleure expérience aux clients. Par exemple, vous pouvez utiliser AWS Glue to pour exécuter et orchestrer des applications Apache Spark, AWS Step Functions pour aider à orchestrer les composants du AWS service, ou Amazon Managed Workflows for Apache Airflow (Amazon MWAA) pour aider à gérer l'orchestration des flux de travail pour Apache Airflow.

Cette rubrique explique comment passer d'une option alternative AWS Data Pipeline à une autre option. L'option que vous choisissez dépend de votre charge de travail actuelle AWS Data Pipeline. Vous pouvez migrer les cas d' AWS Data Pipeline utilisation typiques vers AWS Step Functions ou Amazon MWAA. AWS Glue

Migration des charges de travail vers AWS Glue

AWS Glueest un service d'intégration de données sans serveur qui facilite la découverte, la préparation, le déplacement et l'intégration de données provenant de plusieurs sources pour les utilisateurs d'analytique. Il inclut des outils pour la création, l'exécution de tâches et l'orchestration des flux de travail. Avec AWS Glue, vous pouvez découvrir et vous connecter à plus de 70 sources de données diverses et gérer vos données dans un catalogue de données centralisé. Vous pouvez créer, exécuter et surveiller visuellement des pipelines d'extraction, de transformation et de chargement (ETL) pour charger les données dans vos lacs de données. Vous pouvez également rechercher et interroger immédiatement les données cataloguées à l'aide d'Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

Nous vous recommandons de migrer votre AWS Data Pipeline charge de travail AWS Glue lorsque :

  • Vous recherchez un service d'intégration de données sans serveur prenant en charge diverses sources de données, des interfaces de création, notamment des éditeurs visuels et des blocs-notes, ainsi que des fonctionnalités avancées de gestion des données telles que la qualité des données et la détection des données sensibles.

  • Votre charge de travail peut être migrée vers AWS Glue des flux de travail, des tâches (en Python ou Apache Spark) et des robots d'exploration (par exemple, votre pipeline existant est construit sur Apache Spark).

  • Vous avez besoin d'une plate-forme unique capable de gérer tous les aspects de votre pipeline de données, y compris l'ingestion, le traitement, le transfert, les tests d'intégrité et les contrôles de qualité.

  • Votre pipeline existant a été créé à partir d'un modèle prédéfini sur la AWS Data Pipeline console, tel que l'exportation d'une table DynamoDB vers Amazon S3, et vous recherchez un modèle ayant le même objectif.

  • Votre charge de travail ne dépend pas d'une application spécifique de l'écosystème Hadoop telle qu'Apache Hive.

  • Votre charge de travail ne nécessite pas d'orchestrer des serveurs sur site.

AWS facture un taux horaire, facturé à la seconde, pour les robots d'exploration (découverte de données) et les tâches ETL (traitement et chargement de données). AWS Glue Studio est un moteur d'orchestration intégré pour les AWS Glue ressources, proposé sans frais supplémentaires. Pour en savoir plus sur la tarification, consultez la section AWS Glue Tarification.

Migration des charges de travail vers Step AWS Functions

AWS Step Functions est un service d'orchestration sans serveur qui vous permet de créer des flux de travail pour vos applications critiques. Avec Step Functions, vous utilisez un éditeur visuel pour créer des flux de travail et les intégrer directement à plus de 11 000 actions pour plus de 250 AWS services, tels que AWS Lambda, Amazon EMR, DynamoDB, etc. Vous pouvez utiliser Step Functions pour orchestrer les pipelines de traitement des données, gérer les erreurs et gérer les limites de régulation des services sous-jacents. AWS Vous pouvez créer des flux de travail qui traitent et publient des modèles d'apprentissage automatique, orchestrer des microservices, ainsi que des AWS services de contrôle, par exemple pour créer des flux de travail d'extraction, de transformation et de chargement (ETL). AWS Glue Vous pouvez également créer des flux de travail automatisés à long terme pour les applications qui nécessitent une interaction humaine.

De même AWS Data Pipeline, AWS Step Functions est un service entièrement géré fourni par AWS. Vous ne serez pas tenu de gérer l'infrastructure, les correctifs, les mises à jour des versions du système d'exploitation ou autres.

Nous vous recommandons de migrer votre AWS Data Pipeline charge de travail vers AWS Step Functions lorsque :

  • Vous recherchez un service d'orchestration de flux de travail sans serveur à haute disponibilité.

  • Vous recherchez une solution rentable qui facture à la granularité de l'exécution d'une seule tâche.

  • Vos charges de travail orchestrent des tâches pour plusieurs autres AWS services, tels qu'Amazon EMR, Lambda AWS Glue ou DynamoDB.

  • Vous recherchez une solution low-code dotée d'un concepteur drag-and-drop visuel pour la création de flux de travail et ne nécessitant pas l'apprentissage de nouveaux concepts de programmation.

  • Vous recherchez un service qui fournit des intégrations avec plus de 250 autres AWS services couvrant plus de 11 000 actions out-of-the-box, ainsi que des intégrations avec des AWS non-services et des activités personnalisés.

Both AWS Data Pipeline et Step Functions utilisent le format JSON pour définir les flux de travail. Cela permet de stocker vos flux de travail dans le contrôle de source, de gérer les versions, de contrôler l'accès et d'automatiser avec CI/CD. Step Functions utilise une syntaxe appelée Amazon State Language qui est entièrement basée sur le JSON et permet une transition fluide entre les représentations textuelles et visuelles du flux de travail.

Avec Step Functions, vous pouvez choisir la même version d'Amazon EMR que celle dans laquelle vous êtes en train d'utiliser. AWS Data Pipeline

Pour migrer les activités sur les ressources AWS Data Pipeline gérées, vous pouvez utiliser l'intégration des services AWS SDK sur Step Functions pour automatiser le provisionnement et le nettoyage des ressources.

Pour migrer des activités sur des serveurs locaux, des instances EC2 gérées par l'utilisateur ou un cluster EMR géré par l'utilisateur, vous pouvez installer un agent SSM sur l'instance. Vous pouvez lancer la commande par le biais de la commande Run Command de AWS Systems Manager depuis Step Functions. Vous pouvez également lancer la machine à états à partir du calendrier défini dans Amazon EventBridge.

AWS Step Functions propose deux types de flux de travail : les flux de travail standard et les flux de travail express. Pour les flux de travail standard, vous êtes facturé en fonction du nombre de transitions d'état requises pour exécuter votre application. Pour Express Workflows, vous êtes facturé en fonction du nombre de demandes relatives à votre flux de travail et de sa durée. Pour en savoir plus sur les tarifs, consultez AWS Step Functions Pricing.

Migration des charges de travail vers Amazon MWAA

Amazon MWAA (Managed Workflows for Apache Airflow) est un service d'orchestration géré pour Apache Airflow qui facilite la configuration et l'exploitation de pipelines de end-to-end données dans le cloud à grande échelle. Apache Airflow est un outil open source utilisé pour créer, planifier et surveiller par programmation des séquences de processus et de tâches appelées « flux de travail ». Avec Amazon MWAA, vous pouvez utiliser Airflow et le langage de programmation Python pour créer des flux de travail sans avoir à gérer l'infrastructure sous-jacente en termes d'évolutivité, de disponibilité et de sécurité. Amazon MWAA adapte automatiquement sa capacité d'exécution de flux de travail pour répondre à vos besoins, et est intégré aux services de AWS sécurité afin de vous fournir un accès rapide et sécurisé à vos données.

De même AWS Data Pipeline, Amazon MWAA est un service entièrement géré fourni par AWS. Bien que vous deviez apprendre plusieurs nouveaux concepts spécifiques à ces services, vous n'êtes pas obligé de gérer l'infrastructure, les correctifs, les mises à jour des versions du système d'exploitation ou autres.

Nous vous recommandons de migrer vos AWS Data Pipeline charges de travail vers Amazon MWAA lorsque :

  • Vous recherchez un service géré et hautement disponible pour orchestrer des flux de travail écrits en Python.

  • Vous souhaitez passer à une technologie open source entièrement gérée et largement adoptée, Apache Airflow, pour une portabilité maximale.

  • Vous avez besoin d'une plate-forme unique capable de gérer tous les aspects de votre pipeline de données, y compris l'ingestion, le traitement, le transfert, les tests d'intégrité et les contrôles de qualité.

  • Vous recherchez un service conçu pour l'orchestration du pipeline de données avec des fonctionnalités telles qu'une interface utilisateur riche pour l'observabilité, les redémarrages en cas d'échec des flux de travail, les remplissages et les nouvelles tentatives de tâches.

  • Vous recherchez un service comprenant plus de 800 opérateurs et capteurs préfabriqués, couvrant AWS aussi bien les services que les AWS non-services.

Les flux de travail Amazon MWAA sont définis comme des graphes acycliques dirigés (DAG) à l'aide de Python. Vous pouvez donc également les traiter comme du code source. Le framework Python extensible d'Airflow vous permet de créer des flux de travail connectés à pratiquement toutes les technologies. Il est doté d'une interface utilisateur riche pour visualiser et surveiller les flux de travail et peut être facilement intégré aux systèmes de contrôle de version pour automatiser le processus CI/CD.

Avec Amazon MWAA, vous pouvez choisir la même version d'Amazon EMR que celle dans laquelle vous utilisez actuellement. AWS Data Pipeline

AWS des frais correspondant au temps de fonctionnement de votre environnement Airflow, ainsi que toute mise à l'échelle automatique supplémentaire visant à augmenter la capacité du personnel ou du serveur Web. En savoir plus sur la tarification dans Amazon Managed Workflows for Apache Airflow Pricing.

Cartographie des concepts

Le tableau suivant contient le mappage des principaux concepts utilisés par les services. Cela aidera les personnes familiarisées avec Data Pipeline à comprendre la terminologie Step Functions et MWAA.

Exemples

Les sections suivantes répertorient des exemples publics auxquels vous pouvez vous référer pour migrer AWS Data Pipeline vers des services individuels. Vous pouvez les citer à titre d'exemples et créer votre propre pipeline sur les différents services en le mettant à jour et en le testant en fonction de votre cas d'utilisation.

AWS Glue échantillons

La liste suivante contient des exemples d'implémentations pour les cas d' AWS Data Pipeline utilisation les plus courants avec. AWS Glue

AWS Exemples de Step Functions

La liste suivante contient des exemples d'implémentations pour les AWS Data Pipeline cas d'utilisation les plus courants avec Step Functions AWS .

Consultez des didacticiels supplémentaires et des exemples de projets sur l'utilisation de AWS Step Functions.

Échantillons Amazon MWAA

La liste suivante contient des exemples d'implémentations pour les cas d' AWS Data Pipeline utilisation les plus courants avec Amazon MWAA.

Consultez des didacticiels supplémentaires et des exemples de projets relatifs à l'utilisation d'Amazon MWAA.