Migration von Workloads AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Migration von Workloads AWS Data Pipeline

AWS hat den AWS Data Pipeline Dienst 2012 eingeführt. Zu dieser Zeit waren Kunden auf der Suche nach einem Service, der ihnen hilft, Daten mithilfe einer Vielzahl von Rechenoptionen zuverlässig zwischen verschiedenen Datenquellen zu übertragen. Heute gibt es andere Dienste, die Kunden ein besseres Erlebnis bieten. Sie können beispielsweise AWS Glue to verwenden, um Apache Spark-Anwendungen auszuführen und zu orchestrieren, AWS Step Functions zur Orchestrierung von AWS Servicekomponenten oder Amazon Managed Workflows for Apache Airflow (Amazon MWAA), um die Workflow-Orchestrierung für Apache Airflow zu verwalten.

In diesem Thema wird erklärt, wie Sie von zu alternativen Optionen migrieren. AWS Data Pipeline Welche Option Sie wählen, hängt von Ihrer aktuellen Arbeitslast ab AWS Data Pipeline. Sie können typische Anwendungsfälle von entweder AWS Data Pipeline AWS Glue zu AWS Step Functions oder Amazon MWAA migrieren.

Migration von Workloads zu AWS Glue

AWS Glue ist ein Serverless-Datenintegrationsdienst, der es Analytics-Benutzern erleichtert, Daten aus mehreren Quellen zu erkennen, vorzubereiten, zu verschieben und zu integrieren. Es umfasst Tools für die Erstellung, Ausführung von Jobs und Orchestrierung von Workflows. Mit AWS Glue können Sie mehr als 70 verschiedene Datenquellen entdecken und eine Verbindung zu ihnen herstellen und Ihre Daten in einem zentralen Datenkatalog verwalten. Sie können ETL-Pipelines (Extract, Transform, Load) visuell erstellen, ausführen und überwachen, um Daten in Ihre Date Lakes zu laden. Außerdem können Sie mithilfe von Amazon Athena, Amazon EMR und Amazon Redshift Spectrum sofort katalogisierte Daten durchsuchen und abfragen.

Wir empfehlen, Ihren AWS Data Pipeline Workload zu den folgenden AWS Glue Zeiten zu migrieren:

  • Sie suchen nach einem serverlosen Datenintegrationsservice, der verschiedene Datenquellen, Autorenschnittstellen wie visuelle Editoren und Notizbücher sowie erweiterte Datenverwaltungsfunktionen wie Datenqualität und Erkennung sensibler Daten unterstützt.

  • Ihr Workload kann auf AWS Glue Workflows, Jobs (in Python oder Apache Spark) und Crawler migriert werden (Ihre bestehende Pipeline basiert beispielsweise auf Apache Spark).

  • Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Aufnahme, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.

  • Ihre bestehende Pipeline wurde anhand einer vordefinierten Vorlage auf der AWS Data Pipeline Konsole erstellt, z. B. dem Exportieren einer DynamoDB-Tabelle nach Amazon S3, und Sie suchen nach derselben Vorlage für denselben Zweck.

  • Ihre Arbeitslast hängt nicht von einer bestimmten Hadoop-Ökosystemanwendung wie Apache Hive ab.

  • Ihr Workload erfordert keine Orchestrierung von lokalen Servern.

AWS berechnet für Crawler (Erkennung von Daten) und ETL-Jobs (Verarbeitung und Laden von Daten) einen Stundensatz, der sekundengenau abgerechnet wird. AWS Glue Studio ist eine integrierte Orchestrierungs-Engine für AWS Glue Ressourcen und wird ohne zusätzliche Kosten angeboten. Weitere Informationen zur Preisgestaltung finden Sie unter AWS Glue Preise.

Migration von Workloads zu AWS Step Functions

AWS Step Functions ist ein serverloser Orchestrierungsservice, mit dem Sie Workflows für Ihre geschäftskritischen Anwendungen erstellen können. Mit Step Functions verwenden Sie einen visuellen Editor, um Workflows zu erstellen und direkt in über 11.000 Aktionen für über 250 AWS Services wie AWS Lambda, Amazon EMR, DynamoDB und mehr zu integrieren. Sie können Step Functions verwenden, um Datenverarbeitungspipelines zu orchestrieren, Fehler zu behandeln und mit den Drosselungsgrenzen für die zugrunde liegenden Dienste zu arbeiten. AWS Sie können Workflows erstellen, die Modelle für maschinelles Lernen verarbeiten und veröffentlichen, Mikroservices orchestrieren und AWS Dienste steuern, z. B. um ETL-Workflows (Extrahieren AWS Glue, Transformieren und Laden) zu erstellen. Sie können auch lang andauernde, automatisierte Workflows für Anwendungen erstellen, die menschliche Interaktion erfordern.

Ähnlich AWS Data Pipeline wie AWS Step Functions ist ein vollständig verwalteter Service von AWS. Sie müssen sich nicht um die Infrastruktur kümmern, Worker patchen, Betriebssystem-Versionsupdates oder ähnliches verwalten.

Wir empfehlen, Ihren AWS Data Pipeline Workload zu AWS Step Functions zu migrieren, wenn:

  • Sie suchen nach einem serverlosen, hochverfügbaren Workflow-Orchestrierungsservice.

  • Sie suchen nach einer kostengünstigen Lösung, die mit der Granularität der Ausführung einer einzelnen Aufgabe berechnet wird.

  • Ihre Workloads orchestrieren Aufgaben für mehrere andere AWS Services wie Amazon EMR, Lambda oder DynamoDB. AWS Glue

  • Sie suchen nach einer Low-Code-Lösung, die über einen drag-and-drop visuellen Designer für die Workflow-Erstellung verfügt und für die Sie keine neuen Programmierkonzepte erlernen müssen.

  • Sie suchen nach einem Service, der Integrationen mit über 250 anderen AWS Diensten bietet, die über 11.000 Aktionen abdecken out-of-the-box, sowie Integrationen mit benutzerdefinierten Nichtdiensten und Aktivitäten ermöglicht.AWS

AWS Data Pipeline Sowohl Step Functions als auch Step Functions verwenden das JSON-Format, um Workflows zu definieren. Auf diese Weise können Sie Ihre Workflows in der Quellcodeverwaltung speichern, Versionen verwalten, den Zugriff kontrollieren und mit CI/CD automatisieren. Step Functions verwendet eine Syntax namens Amazon State Language, die vollständig auf JSON basiert und einen nahtlosen Übergang zwischen der textuellen und der visuellen Darstellung des Workflows ermöglicht.

Mit Step Functions können Sie dieselbe Version von Amazon EMR auswählen, die Sie derzeit verwenden. AWS Data Pipeline

Für die Migration von Aktivitäten auf AWS Data Pipeline verwalteten Ressourcen können Sie die AWS SDK-Serviceintegration in Step Functions verwenden, um die Bereitstellung und Bereinigung von Ressourcen zu automatisieren.

Für die Migration von Aktivitäten auf lokalen Servern, benutzerverwalteten EC2-Instances oder einem benutzerverwalteten EMR-Cluster können Sie einen SSM-Agent auf der Instance installieren. Sie können den Befehl über den AWS Systems Manager Run Command von Step Functions aus initiieren. Sie können den Zustandsmaschine auch über den in Amazon definierten Zeitplan initiieren EventBridge.

AWS Step Functions hat zwei Arten von Workflows: Standard-Workflows und Express-Workflows. Bei Standard-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Statusübergänge berechnet, die für die Ausführung Ihrer Anwendung erforderlich sind. Bei Express-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Anfragen für Ihren Workflow und dessen Dauer berechnet. Weitere Informationen zur Preisgestaltung finden Sie unter AWS Step Functions Pricing.

Migration von Workloads zu Amazon MWAA

Amazon MWAA (Managed Workflows for Apache Airflow) ist ein verwalteter Orchestrierungsservice für Apache Airflow, der es einfacher macht, end-to-end Daten-Pipelines in der Cloud in großem Maßstab einzurichten und zu betreiben. Apache Airflow ist ein Open-Source-Tool, mit dem Abläufe und Aufgaben, die als „Workflows“ bezeichnet werden, programmgesteuert erstellt, geplant und überwacht werden können. Mit Amazon MWAA können Sie Airflow und die Programmiersprache Python verwenden, um Workflows zu erstellen, ohne die zugrunde liegende Infrastruktur im Hinblick auf Skalierbarkeit, Verfügbarkeit und Sicherheit verwalten zu müssen. Amazon MWAA passt seine Workflow-Ausführungskapazität automatisch an Ihre Bedürfnisse an und ist in AWS Sicherheitsservices integriert, um Ihnen einen schnellen und sicheren Zugriff auf Ihre Daten zu ermöglichen.

Ähnlich AWS Data Pipeline wie Amazon MWAA ist ein vollständig verwalteter Service, der von bereitgestellt wird. AWS Sie müssen sich zwar mit einigen neuen Konzepten vertraut machen, die für diese Services spezifisch sind, aber Sie müssen sich nicht mit der Verwaltung der Infrastruktur, der Patch-Worker, der Verwaltung von Betriebssystemversions-Updates oder ähnlichem befassen.

Wir empfehlen, Ihre AWS Data Pipeline Workloads zu Amazon MWAA zu migrieren, wenn:

  • Sie suchen nach einem verwalteten, hochverfügbaren Service zur Orchestrierung von in Python geschriebenen Workflows.

  • Sie möchten auf eine vollständig verwaltete, weit verbreitete Open-Source-Technologie, Apache Airflow, umsteigen, um maximale Portabilität zu gewährleisten.

  • Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Erfassung, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.

  • Sie suchen nach einem Service, der für die Orchestrierung von Datenpipeline konzipiert ist und Funktionen wie eine umfangreiche Benutzeroberfläche für Beobachtbarkeit, Neustarts für fehlgeschlagene Workflows, Backfills und Wiederholungsversuche für Aufgaben bietet.

  • Sie sind auf der Suche nach einem Service, der über 800 vorgefertigte Bediener und Sensoren verfügt und AWS sowohl Dienstleistungen als auch andere Dienste abdeckt.AWS

Amazon MWAA-Workflows werden mithilfe von Python als Directed Acyclic Graphs (DAGs) definiert, sodass Sie sie auch als Quellcode behandeln können. Mit dem erweiterbaren Python-Framework von Airflow können Sie Workflows erstellen, die sich mit praktisch jeder Technologie verbinden. Es verfügt über eine umfangreiche Benutzeroberfläche zum Anzeigen und Überwachen von Workflows und kann problemlos in Versionskontrollsysteme integriert werden, um den CI/CD-Prozess zu automatisieren.

Mit Amazon MWAA können Sie dieselbe Version von Amazon EMR wählen, die Sie derzeit verwenden. AWS Data Pipeline

AWS berechnet die Zeit, in der Ihre Airflow-Umgebung läuft, plus zusätzliche auto Skalierung, um mehr Mitarbeiter- oder Webserverkapazität bereitzustellen. Erfahren Sie mehr über die Preisgestaltung in Amazon Managed Workflows for Apache Airflow Pricing.

Abbildung der Konzepte

Die folgende Tabelle enthält eine Übersicht der wichtigsten Konzepte, die von den Diensten verwendet werden. Es hilft Personen, die mit Data Pipeline vertraut sind, die Step Functions und die MWAA-Terminologie zu verstehen.

Beispiele

In den folgenden Abschnitten sind öffentliche Beispiele aufgeführt, auf die Sie zurückgreifen können, um von zu einzelnen Diensten AWS Data Pipeline zu migrieren. Sie können sie als Beispiele verwenden und Ihre eigene Pipeline für die einzelnen Dienste erstellen, indem Sie sie auf der Grundlage Ihres Anwendungsfalls aktualisieren und testen.

AWS Glue Beispiele

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit. AWS Glue

AWS Beispiele für Step Functions

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit AWS Step Functions.

Sehen Sie sich zusätzliche Tutorials und Beispielprojekte zur Verwendung von AWS Step Functions an.

Amazon MWAA-Beispiele

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit Amazon MWAA.

Sehen Sie sich zusätzliche Tutorials und Beispielprojekte für die Verwendung von Amazon MWAA an.