AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Migration von Workloads AWS Data Pipeline
AWS hat den AWS Data Pipeline Dienst 2012 eingeführt. Zu dieser Zeit waren Kunden auf der Suche nach einem Service, der ihnen hilft, Daten mithilfe einer Vielzahl von Rechenoptionen zuverlässig zwischen verschiedenen Datenquellen zu übertragen. Heute gibt es andere Dienste, die Kunden ein besseres Erlebnis bieten. Sie können zum Beispiel AWS Glue to verwenden, um Apache Spark-Anwendungen auszuführen und zu orchestrieren, AWS Step Functions zur Orchestrierung von AWS Servicekomponenten oder Amazon Managed Workflows for Apache Airflow (Amazon MWAA), um die Workflow-Orchestrierung für Apache Airflow zu verwalten.
In diesem Thema wird erklärt, wie Sie von zu alternativen Optionen migrieren. AWS Data Pipeline Welche Option Sie wählen, hängt von Ihrer aktuellen Arbeitslast ab AWS Data Pipeline. Sie können typische Anwendungsfälle von entweder AWS Data Pipeline AWS Glue zu AWS Step Functions oder Amazon MWAA migrieren.
Migration von Workloads zu AWS Glue
AWS Glue
Wir empfehlen, Ihren AWS Data Pipeline Workload zu den folgenden AWS Glue Zeiten zu migrieren:
Sie suchen nach einem serverlosen Datenintegrationsservice, der verschiedene Datenquellen, Autorenschnittstellen wie visuelle Editoren und Notizbücher sowie erweiterte Datenverwaltungsfunktionen wie Datenqualität und Erkennung sensibler Daten unterstützt.
Ihr Workload kann auf AWS Glue Workflows, Jobs (in Python oder Apache Spark) und Crawler migriert werden (Ihre bestehende Pipeline basiert beispielsweise auf Apache Spark).
Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Aufnahme, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.
Ihre bestehende Pipeline wurde anhand einer vordefinierten Vorlage auf der AWS Data Pipeline Konsole erstellt, z. B. dem Exportieren einer DynamoDB-Tabelle nach Amazon S3, und Sie suchen nach derselben Vorlage für denselben Zweck.
Ihre Arbeitslast hängt nicht von einer bestimmten Hadoop-Ökosystemanwendung wie Apache Hive ab.
Ihr Workload erfordert keine Orchestrierung von lokalen Servern.
AWS berechnet für Crawler (Erkennung von Daten) und ETL-Jobs (Verarbeitung und Laden von Daten) einen Stundensatz, der sekundengenau abgerechnet wird. AWS Glue Studio ist eine integrierte Orchestrierungs-Engine für AWS Glue Ressourcen und wird ohne zusätzliche Kosten angeboten. Weitere Informationen zur Preisgestaltung finden Sie unter AWS Glue Preise
Migration von Workloads zu AWS Step Functions
AWS Step Functions
Ähnlich AWS Data Pipeline wie AWS Step Functions ist ein vollständig verwalteter Service von AWS. Sie müssen sich nicht um die Infrastruktur kümmern, Worker patchen, Betriebssystem-Versionsupdates oder Ähnliches verwalten.
Wir empfehlen, Ihren AWS Data Pipeline Workload zu AWS Step Functions zu migrieren, wenn:
Sie suchen nach einem serverlosen, hochverfügbaren Workflow-Orchestrierungsservice.
Sie suchen nach einer kostengünstigen Lösung, die mit der Granularität der Ausführung einer einzelnen Aufgabe berechnet wird.
Ihre Workloads orchestrieren Aufgaben für mehrere andere AWS Services wie Amazon EMR, Lambda oder DynamoDB. AWS Glue
Sie suchen nach einer Low-Code-Lösung, die über einen drag-and-drop visuellen Designer für die Workflow-Erstellung verfügt und für die Sie keine neuen Programmierkonzepte erlernen müssen.
Sie suchen nach einem Service, der Integrationen mit über 250 anderen AWS Diensten bietet, die über 11.000 Aktionen abdecken out-of-the-box, sowie Integrationen mit benutzerdefinierten Nichtdiensten und Aktivitäten ermöglicht.AWS
AWS Data Pipeline Sowohl Step Functions als auch Step Functions verwenden das JSON-Format, um Workflows zu definieren. Auf diese Weise können Sie Ihre Workflows in der Quellcodeverwaltung speichern, Versionen verwalten, den Zugriff kontrollieren und mit CI/CD automatisieren. Step Functions verwendet eine Syntax namens Amazon State Language, die vollständig auf JSON basiert und einen nahtlosen Übergang zwischen der textuellen und der visuellen Darstellung des Workflows ermöglicht.
Mit Step Functions können Sie dieselbe Version von Amazon EMR auswählen, die Sie derzeit verwenden. AWS Data Pipeline
Für die Migration von Aktivitäten auf AWS Data Pipeline verwalteten Ressourcen können Sie die AWS SDK-Serviceintegration in Step Functions verwenden, um die Bereitstellung und Bereinigung von Ressourcen zu automatisieren.
Für die Migration von Aktivitäten auf lokalen Servern, benutzerverwalteten EC2 Instanzen oder einem benutzerverwalteten EMR-Cluster können Sie einen SSM-Agent auf der Instanz installieren. Sie können den Befehl über den AWS Systems Manager Run Command von Step Functions aus initiieren. Sie können den Zustandsmaschine auch über den in Amazon
AWS Step Functions hat zwei Arten von Workflows: Standard-Workflows und Express-Workflows. Bei Standard-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Statusübergänge berechnet, die für die Ausführung Ihrer Anwendung erforderlich sind. Bei Express-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Anfragen für Ihren Workflow und dessen Dauer berechnet. Weitere Informationen zur Preisgestaltung finden Sie unter AWS Step Functions Pricing
Migration von Workloads zu Amazon MWAA
Amazon MWAA
Ähnlich AWS Data Pipeline wie Amazon MWAA ist ein vollständig verwalteter Service, der von bereitgestellt wird. AWS Sie müssen sich zwar mit einigen neuen Konzepten vertraut machen, die für diese Services spezifisch sind, aber Sie müssen sich nicht mit der Verwaltung der Infrastruktur, der Patch-Worker, der Verwaltung von Betriebssystemversions-Updates oder ähnlichem befassen.
Wir empfehlen, Ihre AWS Data Pipeline Workloads zu Amazon MWAA zu migrieren, wenn:
Sie suchen nach einem verwalteten, hochverfügbaren Service zur Orchestrierung von in Python geschriebenen Workflows.
Sie möchten auf eine vollständig verwaltete, weit verbreitete Open-Source-Technologie, Apache Airflow, umsteigen, um maximale Portabilität zu gewährleisten.
Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Erfassung, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.
Sie suchen nach einem Service, der für die Orchestrierung von Datenpipeline konzipiert ist und Funktionen wie eine umfangreiche Benutzeroberfläche für Beobachtbarkeit, Neustarts für fehlgeschlagene Workflows, Backfills und Wiederholungsversuche für Aufgaben bietet.
Sie sind auf der Suche nach einem Service, der über 800 vorgefertigte Bediener und Sensoren verfügt und AWS sowohl Dienstleistungen als auch andere Dienste abdeckt.AWS
Amazon MWAA-Workflows sind mithilfe von Python als Directed Acyclic Graphs (DAGs) definiert, sodass Sie sie auch als Quellcode behandeln können. Mit dem erweiterbaren Python-Framework von Airflow können Sie Workflows erstellen, die sich mit praktisch jeder Technologie verbinden. Es verfügt über eine umfangreiche Benutzeroberfläche zum Anzeigen und Überwachen von Workflows und kann problemlos in Versionskontrollsysteme integriert werden, um den CI/CD-Prozess zu automatisieren.
Mit Amazon MWAA können Sie dieselbe Version von Amazon EMR wählen, die Sie derzeit verwenden. AWS Data Pipeline
AWS berechnet die Zeit, in der Ihre Airflow-Umgebung läuft, plus zusätzliche auto Skalierung, um mehr Mitarbeiter- oder Webserverkapazität bereitzustellen. Erfahren Sie mehr über die Preisgestaltung in Amazon Managed Workflows for Apache Airflow Pricing
Abbildung der Konzepte
Die folgende Tabelle enthält eine Übersicht der wichtigsten Konzepte, die von den Diensten verwendet werden. Es hilft Personen, die mit Data Pipeline vertraut sind, die Step Functions und die MWAA-Terminologie zu verstehen.
Data Pipeline | Glue | Step Functions | Amazon MWAA |
---|---|---|---|
Pipelines | Arbeitsabläufe | Arbeitsabläufe | Direkte Acrylgrafiken |
Pipeline-Definition JSON | Workflow-Definition oder Python-basierte Blueprints | Amazon State Language JSON | Python-basiert |
Aktivitäten | Aufträge | Staaten und Aufgaben | Aufgaben |
Instances | Job läuft | Hinrichtungen | DAG läuft |
Attempts | Versuche es erneut | Fänger und Retrier | Wiederholversuche |
Zeitplan der Pipeline | Trigger einplanen | EventBridge Scheduler-Aufgaben | Cron |
Pipeline-Ausdrücke und Funktionen | Blueprint-Bibliothek | Step Functions, intrinsische Funktionen und Lambda AWS | Erweiterbares Python-Framework |
Beispiele
In den folgenden Abschnitten sind öffentliche Beispiele aufgeführt, auf die Sie zurückgreifen können, um von zu einzelnen Diensten AWS Data Pipeline zu migrieren. Sie können sie als Beispiele verwenden und Ihre eigene Pipeline für die einzelnen Dienste erstellen, indem Sie sie auf der Grundlage Ihres Anwendungsfalls aktualisieren und testen.
AWS Glue Beispiele
Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit. AWS Glue
Daten von JDBC nach Amazon S3 kopieren (einschließlich Amazon
Redshift) Daten von Amazon S3 nach JDBC kopieren
(einschließlich Amazon Redshift) Kontoübergreifender regionsübergreifender Zugriff auf DynamoDB-Tabellen
AWS Beispiele für Step Functions
Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit AWS Step Functions.
Sehen Sie sich zusätzliche Tutorials und Beispielprojekte zur Verwendung von AWS Step Functions an.
Amazon MWAA-Beispiele
Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit Amazon MWAA.
Sehen Sie sich zusätzliche Tutorials und Beispielprojekte für die Verwendung von Amazon MWAA an.