迁移工作负载到 AWS Glue 将工作负载到 AWS Step Functions 将工作负载迁移到 Amazon MWAA 映射概念样本

从迁移工作负载 AWS Data Pipeline

AWS 该 AWS Data Pipeline 服务于 2012 年推出。当时，客户正在寻找一种服务，以帮助他们使用各种计算选项在不同的数据源之间可靠地移动数据。现在还有其他服务可以为客户提供更好的体验。例如，您可以使用 AWS Glue 来运行和编排 Apache Spark 应用程序，使用 AWS Step Functions 来帮助编排 AWS 服务组件，或使用 Apache Airflow（Amazon MWAA）来帮助管理 Apache Airflow（Amazon MWAA）来帮助管理 Apache Airflow 的工作流程编排。

本主题介绍如何从迁移 AWS Data Pipeline 到备选选项。您选择的选项因 AWS Data Pipeline上的当前工作负载而定。您可以将的 AWS Data Pipeline 典型用例迁移到 AWS Glue、 AWS Step Functions 或 Amazon MWAA。

迁移工作负载到 AWS Glue

AWS Glue 是一项无服务器数据集成服务，可让使用分析功能的用户轻松发现、准备、移动和集成来自多个来源的数据。它包括用于编写、运行任务和编排工作流的工具。通过使用 AWS Glue，您可以发现并连接到 70 多个不同的数据来源，并在集中式数据目录中管理您的数据。您可以直观地创建、运行和监控“提取、转换、加载（ETL）”管道，以将数据加载到数据湖中。此外，您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查询已编目数据。

在下列情况下，我们建议将您的 AWS Data Pipeline 工作负载迁移 AWS Glue 到：

您正在寻找一种支持各种数据来源、创作界面（包括可视化编辑器和笔记本）以及高级数据管理功能（例如数据质量和敏感数据检测）的无服务器数据集成服务。
您的工作负载可以迁移到 AWS Glue 工作流、作业（在 Python 或 Apache Spark 中）和爬网程序中（例如，您的现有管道是在 Apache Spark 之上构建的）。
您需要一个能够处理数据管道各个方面的单一平台，包括摄取、处理、传输、完整性测试和质量检查。
您的现有管道是根据 AWS Data Pipeline 控制台上的预定义模板创建的，例如将 DynamoDB 表导出到 Amazon S3，而您正在寻找用途相同的模板。
您的工作负载不依赖于特定的 Hadoop 生态系统应用程序，例如 Apache Hive。
您的工作负载不需要编排本地服务器。

AWS 按小时费率（按秒计费）收取执行爬网程序（发现数据）和 ETL 任务（处理和加载数据）的费用。 AWS Glue Studio 是内置的 AWS Glue 资源编排引擎，不收取额外费用。要了解有关定价的更多信息，请参阅 AWS Glue 定价。

将工作负载到 AWS Step Functions

AWS Step Fun ctions 是一项无服务器编排服务，可让您为业务关键型应用程序构建工作流。借助 Step Functions，您可以使用可视化编辑器来构建工作流，并直接与 250 多种 AWS 服务（例如 AWS Lambda、Amazon EMR、DynamoDB 等）的 11,000 多个操作集成。您可以使用 Step Functions 来编排数据处理管道、处理错误以及处理底层服务的节流限制。 AWS 您可以创建用于处理和发布机器学习模型、编排微服务以及控制 AWS 服务的工作流，例如，创建提取 AWS Glue、转换、加载（ETL）工作流。您还可以为需要人为交互的应用程序创建长时间运行的自动化工作流。

与类似的是 AWS Data Pipeline， AWS Step Functions 是由提供的一项完全托管的服务 AWS。您无需管理基础架构、补丁工作人员、管理操作系统版本更新或类似内容。

在下列情况下，我们建议将您的 AWS Data Pipeline 工作负载迁移到 AWS Step Functions：

您正在寻找一种无服务器、高度可用的工作流编排服务。
您正在寻找一种经济实惠的解决方案，该解决方案可以按单个任务执行的粒度收费。
您的工作负载正在为多项其他 AWS 服务（例如 Amazon EMR、Lambda、或 DynamoD AWS Glue B）编排任务。
您正在寻找一种低代码解决方案，该解决方案带有用于创建工作流 drag-and-drop的可视化设计器，并且不需要学习新的编程概念。
您正在寻找一种服务，该服务可以与其他 250 多种 AWS 服务集成，涵盖 11,000 多个操作 out-of-the-box，并允许与自定义的非AWS 服务和活动集成。

AWS Data Pipeline 和 Step Functions 都使用 JSON 格式来定义工作流。这允许将您的工作流存储在源代码管理中，管理版本，控制访问权限，并使用 CI/CD 实现自动化。Step Functions 使用一种名为 Amazon State Language 的语法，该语法完全基于 JSON，允许在工作流的文本和视觉表现形式之间实现无缝切换。

使用 Step Functions，您可以选择与当前在 AWS Data Pipeline中使用的同一版本的 Amazon EMR。

要迁移 AWS Data Pipeline 托管资源上的活动，您可以在 Step Functions 上使用 AWS SDK 服务集成来自动配置和清理资源。

要在本地服务器、用户管理的 EC2 实例或用户管理的 EMR 集群上迁移活动，您可以为该实例安装 SSM 代理。你可以通过 Step Functions 中的 AWS Systems Manager 运行命令来启动该命令。您也可以根据在 Amazon 中定义的计划启动状态机 EventBridge。

AWS Step Functions 有两种类型的工作流：标准工作流和快速工作流。对于标准工作流，您需要根据运行应用程序所需的状态转换次数付费。对于快速工作流，您需要根据工作流的请求数量及其持续时间付费。在 AWS Step Functions 定价中了解更多有关定价的信息。

将工作负载迁移到 Amazon MWAA

Amazon MWAA（Managed Workflows for Apache Airflow）是一项适用于 Apache Airflow 的托管式编排服务，让您能够更轻松地在云中大规模设置和操作 end-to-end数据管道。Apache Airflow 是一种开源工具，用于以编程方式编写、安排和监视被称为“工作流”的流程和任务序列。借助 Amazon MWAA，您可以使用 Airflow 和 Python 编程语言来创建工作流程，而无需管理底层基础设施即可实现可扩展性、可用性和安全性。Amazon MWAA 会自动扩展其工作流程执行容量以满足您的需求，并与 AWS 安全服务集成，帮助您快速、安全地访问数据。

与类似的是 AWS Data Pipeline，Amazon MWAA 是由提供的完全托管服务。 AWS虽然您需要学习一些特定于这些服务的新概念，但您无需管理基础设施、补丁工作人员、管理操作系统版本更新或类似内容。

在下列情况下，我们建议将您的 AWS Data Pipeline 工作负载迁移到 Amazon MWAA：

您正在寻找一种托管、高度可用的服务来编排用 Python 编写的工作流。
您想过渡到完全托管、广泛采用的开源技术 Apache Airflow，以实现最大的便携性。
您需要一个能够处理数据管道各个方面的单一平台，包括摄取、处理、传输、完整性测试和质量检查。
您正在寻找一种专为数据管道编排而设计的服务，该服务具有丰富的用户界面以实现可观测性、针对失败的工作流重新启动、回填和任务重试等功能。
您正在寻找一种包含 800 多个预建操作员和传感器的服务，包括服务 AWS 以及非AWS 服务。

Amazon MWAA 工作流被定义为DAGs使用 Python 的有向无环图（），因此您也可以将其视为源代码。Airflow 的可扩展 Python 框架使您能够构建与几乎任何技术连接的工作流。它具有丰富的用户界面，用于查看和监控工作流，并且可以轻松地与版本控制系统集成，以自动执行 CI/CD 流程。

使用亚马逊 MWAA，您可以选择当前正在 AWS Data Pipeline使用的同一版本的 Amazon EMR。

AWS 按您的 Airflow 环境的运行时间以及为提供更多工作器或 Web 服务器容量而进行的任何额外自动扩缩收费。在 Amazon Managed Workflows for Apache Airflow Pricing 中详细了解定价。

映射概念

下表包含服务使用的主要概念的映射。它将帮助熟悉 Data Pipeline 的人理解 Step Functions 和 MWAA 术语。

Data Pipeline	连接词	Step Functions	Amazon MWAA
Pipelines	工作流程	工作流程	有向无环图
管道定义 JSON	工作流定义或基于 Python 的蓝图	Amazon States Language JSON	基于 Python
活动	作业	状态和任务	任务（运算符和传感器）
实例	任务运行	执行	DAG 运行
Attempts	重试尝试	缓存和重试器	重试
管道计划	计划触发器	EventBridge 调度器任务	Cron、时间表、数据感知
管道表达式和函数	蓝图库	Step Functions 内置函数和 AWS Lambda	可扩展的 Python 框架