什麼是 Amazon 管理的 Apache 氣流工作流程? - Amazon Managed Workflows for Apache Airflow

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 Amazon 管理的 Apache 氣流工作流程?

適用於 Apache Airflow 的 Amazon 受管工作流程是 Apache Airflow 的受管協調服務,您可以使用它在雲端中大規模設定和操作資料管道。Apache Airflow 是一種開放原始碼工具,用於以程式設計方式撰寫、排程和監視稱為工作程的程序和工作序列。透過 AmazonMWAA,您可以使用 Apache Airflow 和 Python 建立工作流程,而不必管理基礎設施以提高可擴展性、可用性和安全性。Amazon MWAA 會自動擴展其工作流程執行能力以滿足您的需求,Amazon 與 AWS 安全服務MWAA整合,協助您快速安全地存取資料。

功能

  • 自動氣流設定 — 當您建立 Amazon MWAA 環境時,選擇 Ap ache 氣流版本,即可快速設定 Apache 氣流。Amazon 使用與您可以在網際網路上下載的相同 Apache 氣流使用者介面和開放原始碼為您MWAA設定 Apache 氣流。

  • 自動調整規模 — 設定環境中執行的工作者數目下限和上限,以自動調整 Apache Airflow Worker 的規模。Amazon 會MWAA監控您環境中的 Worker,並使用其自動調度資源元件新增 Worker 以滿足需求,直到達到達到您定義的最大 Worker 數目為止。

  • 內建驗證 — 透過在 AWS Identity and Access Management (IAM) 中定義存取控制原則,為 Apache Airflow 網頁伺服器啟用角色型驗證和授權。Apache 氣流工作者會採用這些政策來安全存取 AWS 服務。

  • 內建安全性 — Apache 氣流工作者和排程器Amazon MWAA 的 Amazon VPC 上執行。數據也會使用自動加密 AWS Key Management Service,因此默認情況下您的環境是安全的。

  • 公開或私人存取模式 — 使用私人或公開存取模式存取您的 Apache Airflow 網頁伺服器公用網路存取模式會針對可透過網際網路存取的 Apache Airflow 網頁伺服器使用VPC端點。私人網路存取模式會針對您的 Apache Airflow 網頁伺服器使用VPC端點,該伺服器在您的VPC. 在這兩種情況下,Apache Airflow 使用者的存取都是由您在 AWS Identity and Access Management (IAM) 和中定義的存取控制原則所控制 AWS SSO。

  • 簡化升級和修補程式 — Amazon 定期MWAA提供新版本的 Apache 氣流。Amazon MWAA 團隊將更新和修補這些版本的映像。

  • 作流程監控 — 在 Amazon 中查看 Apache 氣流日誌和 Apache 氣流指標, CloudWatch 以識別 Apache 氣流任務延遲或工作流程錯誤,而無需使用其他第三方工具。Amazon MWAA 會自動將環境指標(如果已啟用)傳送 Apache 氣流日誌到。 CloudWatch

  • AWS 集成 — Amazon MWAA 支持與 Amazon Athena,Amazon AWS Batch,亞 Amazon DynamoDB CloudWatch,Amazon,Amazon, AWS DataSync Amazon 數據 FirehoseEMR, AWS Fargate,Amazon RedshiftEKS,Amazon,Amazon,亞馬遜, AWS Glue亞馬遜和 Amazon S3 的開源集成,以及數百個內置和社區創建的運營商和傳感器。 AWS Lambda SQS SNS SageMaker

  • 工作者叢集 — Amazon MWAA 提供支援,協助您使用容器根據需求擴展工作者叢集,並使用 Amazon ECS on 減少排程器中斷情況。 AWS Fargate支援在 Amazon ECS 容器上叫用任務的操作員,以及在 Kubernetes 叢集上建立和執行網繭的 Kubernetes 操作員。

架構

外盒中包含的所有元件 (如下圖所示) 在您的帳戶中顯示為單一 Amazon MWAA 環境。Apache 氣流排程器和工作者是一種 AWS Fargate 容器,可VPC為您的環境連線到 Amazon 中的私有子網路。每個環境都有自己的 Apache Airflow 中繼資料庫,由 AWS 排器和工作者 Fargate 容器透過私有安全端點存取。VPC

Amazon CloudWatch,Amazon S3SQS,Amazon 和 Amazon AWS KMS 是分開的,需要從 Apache 氣流排程器和 Fargate 容器中的工作人員訪問。MWAA

可以選取公用網路 Apache 氣流存取模式,透過網際網路存取 Apache 氣流存取模式,或選取私人網路 Apache 氣流存取模式VPC來存取 Apache 氣流網頁伺服器。在這兩種情況下,Apache Airflow 使用者的存取都是由您在 AWS Identity and Access Management (IAM) 中定義的存取控制原則所控制。

注意

多個 Apache 氣流排程器僅適用於 Apache 氣流 v2 及以上版本。若要深入瞭解 Apache 氣流工作生命週期,請參閱 Apache 氣流參考指南中的概念

此圖像顯示了 Amazon MWAA 環境的體系結構。

整合

活躍且不斷成長的 Apache Airflow 開放原始碼社群提供操作員 (可簡化服務連線的外掛程式),讓 Apache Airflow 與 AWS 服務整合。這包括 Amazon S3,亞馬 Amazon Redshift,Amazon 和 Amazon 等服務 EMR AWS Batch,以及其他雲平台上的服務。 SageMaker

使用 Apache 氣流與 Amazon MWAA 完全支持與 AWS 服務和流行的第三方工具(如 Apache Hadoop,普雷斯托,蜂巢和星火的集成,以執行數據處理任務。Amazon 致力MWAA於維持與 Amazon 的兼容性 MWAAAPI,Amazon MWAA 打算為 AWS 服務提供可靠的集成並將其提供給社區,並參與社區功能開發。

如需程式碼範例,請參閱 適用於 Apache 氣流的 Amazon 受管工作流程程式

支援的版本

Amazon MWAA 支持 Apache 氣流的多個版本。如需有關我們支援的 Apache 氣流版本以及每個版本隨附的 Apache 氣流元件的詳細資訊,請參閱Amazon Managed Workflows for Apache Airflow 上的 Apache Airflow 版本

後續步驟?