AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Migration des charges de travail depuis AWS Data Pipeline
AWS a lancé le AWS Data Pipeline service en 2012. À l'époque, les clients recherchaient un service qui les aiderait à déplacer des données de manière fiable entre différentes sources de données à l'aide de diverses options de calcul. Maintenant, il existe d'autres services qui offrent une meilleure expérience aux clients. Par exemple, vous pouvez utiliser AWS Glue to pour exécuter et orchestrer des applications Apache Spark, AWS Step Functions pour aider à orchestrer les composants du AWS service, ou Amazon Managed Workflows for Apache Airflow (Amazon MWAA) pour aider à gérer l'orchestration des flux de travail pour Apache Airflow.
Cette rubrique explique comment passer d'une option alternative AWS Data Pipeline à une autre option. L'option que vous choisissez dépend de votre charge de travail actuelle AWS Data Pipeline. Vous pouvez migrer les cas d' AWS Data Pipeline utilisation typiques vers AWS Step Functions ou Amazon MWAA. AWS Glue
Migration des charges de travail vers AWS Glue
AWS Glue
Nous vous recommandons de migrer votre AWS Data Pipeline charge de travail AWS Glue lorsque :
Vous recherchez un service d'intégration de données sans serveur prenant en charge diverses sources de données, des interfaces de création, notamment des éditeurs visuels et des blocs-notes, ainsi que des fonctionnalités avancées de gestion des données telles que la qualité des données et la détection des données sensibles.
Votre charge de travail peut être migrée vers AWS Glue des flux de travail, des tâches (en Python ou Apache Spark) et des robots d'exploration (par exemple, votre pipeline existant est construit sur Apache Spark).
Vous avez besoin d'une plate-forme unique capable de gérer tous les aspects de votre pipeline de données, y compris l'ingestion, le traitement, le transfert, les tests d'intégrité et les contrôles de qualité.
Votre pipeline existant a été créé à partir d'un modèle prédéfini sur la AWS Data Pipeline console, tel que l'exportation d'une table DynamoDB vers Amazon S3, et vous recherchez un modèle ayant le même objectif.
Votre charge de travail ne dépend pas d'une application spécifique de l'écosystème Hadoop telle qu'Apache Hive.
Votre charge de travail ne nécessite pas d'orchestrer des serveurs sur site.
AWS facture un taux horaire, facturé à la seconde, pour les robots d'exploration (découverte de données) et les tâches ETL (traitement et chargement de données). AWS Glue Studio est un moteur d'orchestration intégré pour les AWS Glue ressources, proposé sans frais supplémentaires. Pour en savoir plus sur la tarification, consultez la section AWS Glue Tarification
Migration des charges de travail vers Step AWS Functions
AWS Step Functions
De même AWS Data Pipeline, AWS Step Functions est un service entièrement géré fourni par AWS. Vous ne serez pas tenu de gérer l'infrastructure, les correctifs, les mises à jour des versions du système d'exploitation ou autres.
Nous vous recommandons de migrer votre AWS Data Pipeline charge de travail vers AWS Step Functions lorsque :
Vous recherchez un service d'orchestration de flux de travail sans serveur à haute disponibilité.
Vous recherchez une solution rentable qui facture à la granularité de l'exécution d'une seule tâche.
Vos charges de travail orchestrent des tâches pour plusieurs autres AWS services, tels qu'Amazon EMR, Lambda AWS Glue ou DynamoDB.
Vous recherchez une solution low-code dotée d'un concepteur drag-and-drop visuel pour la création de flux de travail et ne nécessitant pas l'apprentissage de nouveaux concepts de programmation.
Vous recherchez un service qui fournit des intégrations avec plus de 250 autres AWS services couvrant plus de 11 000 actions out-of-the-box, ainsi que des intégrations avec des AWS non-services et des activités personnalisés.
Both AWS Data Pipeline et Step Functions utilisent le format JSON pour définir les flux de travail. Cela permet de stocker vos flux de travail dans le contrôle de source, de gérer les versions, de contrôler l'accès et d'automatiser avec CI/CD. Step Functions utilise une syntaxe appelée Amazon State Language qui est entièrement basée sur le JSON et permet une transition fluide entre les représentations textuelles et visuelles du flux de travail.
Avec Step Functions, vous pouvez choisir la même version d'Amazon EMR que celle dans laquelle vous êtes en train d'utiliser. AWS Data Pipeline
Pour migrer les activités sur les ressources AWS Data Pipeline gérées, vous pouvez utiliser l'intégration des services AWS SDK sur Step Functions pour automatiser le provisionnement et le nettoyage des ressources.
Pour migrer des activités sur des serveurs locaux, des instances EC2 gérées par l'utilisateur ou un cluster EMR géré par l'utilisateur, vous pouvez installer un agent SSM sur l'instance. Vous pouvez lancer la commande par le biais de la commande Run Command de AWS Systems Manager depuis Step Functions. Vous pouvez également lancer la machine à états à partir du calendrier défini dans Amazon EventBridge
AWS Step Functions propose deux types de flux de travail : les flux de travail standard et les flux de travail express. Pour les flux de travail standard, vous êtes facturé en fonction du nombre de transitions d'état requises pour exécuter votre application. Pour Express Workflows, vous êtes facturé en fonction du nombre de demandes relatives à votre flux de travail et de sa durée. Pour en savoir plus sur les tarifs, consultez AWS Step Functions Pricing
Migration des charges de travail vers Amazon MWAA
Amazon MWAA
De même AWS Data Pipeline, Amazon MWAA est un service entièrement géré fourni par AWS. Bien que vous deviez apprendre plusieurs nouveaux concepts spécifiques à ces services, vous n'êtes pas obligé de gérer l'infrastructure, les correctifs, les mises à jour des versions du système d'exploitation ou autres.
Nous vous recommandons de migrer vos AWS Data Pipeline charges de travail vers Amazon MWAA lorsque :
Vous recherchez un service géré et hautement disponible pour orchestrer des flux de travail écrits en Python.
Vous souhaitez passer à une technologie open source entièrement gérée et largement adoptée, Apache Airflow, pour une portabilité maximale.
Vous avez besoin d'une plate-forme unique capable de gérer tous les aspects de votre pipeline de données, y compris l'ingestion, le traitement, le transfert, les tests d'intégrité et les contrôles de qualité.
Vous recherchez un service conçu pour l'orchestration du pipeline de données avec des fonctionnalités telles qu'une interface utilisateur riche pour l'observabilité, les redémarrages en cas d'échec des flux de travail, les remplissages et les nouvelles tentatives de tâches.
Vous recherchez un service comprenant plus de 800 opérateurs et capteurs préfabriqués, couvrant AWS aussi bien les services que les AWS non-services.
Les flux de travail Amazon MWAA sont définis comme des graphes acycliques dirigés (DAG) à l'aide de Python. Vous pouvez donc également les traiter comme du code source. Le framework Python extensible d'Airflow vous permet de créer des flux de travail connectés à pratiquement toutes les technologies. Il est doté d'une interface utilisateur riche pour visualiser et surveiller les flux de travail et peut être facilement intégré aux systèmes de contrôle de version pour automatiser le processus CI/CD.
Avec Amazon MWAA, vous pouvez choisir la même version d'Amazon EMR que celle dans laquelle vous utilisez actuellement. AWS Data Pipeline
AWS des frais correspondant au temps de fonctionnement de votre environnement Airflow, ainsi que toute mise à l'échelle automatique supplémentaire visant à augmenter la capacité du personnel ou du serveur Web. En savoir plus sur la tarification dans Amazon Managed Workflows for Apache Airflow Pricing
Cartographie des concepts
Le tableau suivant contient le mappage des principaux concepts utilisés par les services. Cela aidera les personnes familiarisées avec Data Pipeline à comprendre la terminologie Step Functions et MWAA.
Data Pipeline | Glue | Step Functions | Amazon MWAA |
---|---|---|---|
Pipelines | Flux de travail | Flux de travail | Graphiques acryliques directs |
Définition du pipeline JSON | Définition du flux de travail ou plans basés sur Python | Amazon State Language JSON | Basé sur Python |
Activités | Tâches | États et tâches | Tâches |
instances | Job exécutés | Exécutions | DAG fonctionne |
Tentatives | Tentatives de nouvelle tentative | Catchers et retriers | Nouvelle tentative |
Calendrier du pipeline | Déclencheurs de | EventBridge Tâches du planificateur | Cron |
Expressions et fonctions du pipeline | Bibliothèque de plans | Step Functions, fonctions intrinsèques et AWS Lambda | Framework Python extensible |
Exemples
Les sections suivantes répertorient des exemples publics auxquels vous pouvez vous référer pour migrer AWS Data Pipeline vers des services individuels. Vous pouvez les citer à titre d'exemples et créer votre propre pipeline sur les différents services en le mettant à jour et en le testant en fonction de votre cas d'utilisation.
AWS Glue échantillons
La liste suivante contient des exemples d'implémentations pour les cas d' AWS Data Pipeline utilisation les plus courants avec. AWS Glue
Copier des données de JDBC vers Amazon S3
(y compris Amazon Redshift) Copier des données d'Amazon S3 vers JDBC
(y compris Amazon Redshift)
AWS Exemples de Step Functions
La liste suivante contient des exemples d'implémentations pour les AWS Data Pipeline cas d'utilisation les plus courants avec Step Functions AWS .
Exécution d'une tâche de traitement de données sur Amazon EMR Serverless
Interrogation de grands ensembles de données (Amazon Athena, Amazon S3,) AWS Glue
Consultez des didacticiels supplémentaires et des exemples de projets sur l'utilisation de AWS Step Functions.
Échantillons Amazon MWAA
La liste suivante contient des exemples d'implémentations pour les cas d' AWS Data Pipeline utilisation les plus courants avec Amazon MWAA.
Consultez des didacticiels supplémentaires et des exemples de projets relatifs à l'utilisation d'Amazon MWAA.