本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 Amazon MWAA 環境
Amazon Managed Workflows for Apache Airflow 會使用 Apache 提供的相同開放原始碼 Apache Airflow 和使用者介面,在所選版本的環境中設定 Apache Airflow。本指南說明建立 Amazon MWAA 環境的步驟。
開始之前
-
您為環境指定的 VPC 網路無法在環境建立後修改。
-
您需要將 Amazon S3 儲存貯體設定為封鎖所有公有存取,並啟用儲存貯體版本控制。
-
您需要具有使用 Amazon MWAA 的許可,以及 AWS Identity and Access Management (IAM) 中建立 IAM 角色的許可 AWS 的帳戶。如果您選擇 Apache Airflow Web 伺服器的私有網路存取模式,這會限制 Amazon VPC 內的 Apache Airflow 存取,您將需要 IAM 中的許可才能建立 Amazon VPC 端點。
Apache Airflow 版本
Amazon Managed Workflows for Apache Airflow 支援下列 Apache Airflow 版本。
注意
-
從 Apache Airflow 2.2.2 版開始,Amazon MWAA 支援直接在 Apache Airflow Web 伺服器上安裝 Python 需求、供應商套件和自訂外掛程式。
-
從 Apache Airflow 2.7.2 版開始,您的需求檔案必須包含
--constraint
陳述式。如果您未提供限制條件,Amazon MWAA 會為您指定一個,以確保您的需求中列出的套件與您正在使用的 Apache Airflow 版本相容。如需在需求檔案中設定限制的詳細資訊,請參閱安裝 Python 相依性。
Apache Airflow 版本 | Apache Airflow 指南 | Apache Airflow 限制條件 | Python 版本 |
---|---|---|---|
如需遷移自我管理 Apache Airflow 部署或遷移現有 Amazon MWAA 環境的詳細資訊,包括備份中繼資料資料庫的說明,請參閱 Amazon MWAA 遷移指南。
建立環境
下一節說明建立 Amazon MWAA 環境的步驟。
步驟一:指定詳細資訊
指定環境的詳細資訊
-
開啟 Amazon MWAA
主控台。 -
使用 AWS 區域選擇器來選取您的區域。
-
選擇 Create environment (建立環境)。
-
在指定詳細資訊頁面的環境詳細資訊下:
-
在名稱中輸入您環境的唯一名稱。
-
在 Airflow 版本中選擇 Apache Airflow 版本。
注意
如果未指定任何值, 會預設為最新的 Apache Airflow 版本。可用的最新版本是 Apache Airflow 2.10.3 版。
-
-
在 Amazon S3 中的 DAG 程式碼下,指定下列項目:
-
S3 儲存貯體。選擇瀏覽 S3 並選擇您的 Amazon S3 儲存貯體,或輸入 Amazon S3 URI。
-
DAGs。選擇瀏覽 S3,然後選取 Amazon S3 儲存貯體中的
dags
資料夾,或輸入 Amazon S3 URI。 -
外掛程式檔案 - 選用。選擇瀏覽 S3 並選取 Amazon S3 儲存貯體上的
plugins.zip
檔案,或輸入 Amazon S3 URI。 -
需求檔案 - 選用。選擇瀏覽 S3 並選取 Amazon S3 儲存貯體上的
requirements.txt
檔案,或輸入 Amazon S3 URI。 -
啟動指令碼檔案 - 選用,選擇瀏覽S3並選取 Amazon S3 儲存貯體上的指令碼檔案,或輸入 Amazon S3 URI。
-
-
選擇 Next (下一步)。
步驟二:設定進階設定
設定進階設定
-
在設定進階設定頁面的網路下:
-
選擇您的 Amazon VPC。
此步驟會在 Amazon VPC 中填入兩個私有子網路。
-
-
在 Web 伺服器存取下,選取您偏好的 Apache Airflow 存取模式:
-
私有網路。這會將 Apache Airflow UI 的存取權限制為 Amazon VPC 內已授予環境 IAM 政策存取權的使用者。您需要許可才能建立此步驟的 Amazon VPC 端點。
注意
如果您的 Apache Airflow UI 只能在公司網路內存取,而且您不需要存取公有儲存庫以進行 Web 伺服器要求安裝,請選擇私有網路選項。如果您選擇此存取模式選項,則需要建立機制來存取 Amazon VPC 中的 Apache Airflow Web 伺服器。如需詳細資訊,請參閱存取 Apache Airflow Web 伺服器的 VPC 端點 (私有網路存取)。
-
公有網路。這可讓獲授予環境 IAM 政策存取權的使用者透過網際網路存取 Apache Airflow UI。
-
-
在安全群組 (Security group) 下,選擇用來保護 Amazon VPC 的安全群組:
-
根據預設,Amazon MWAA 會在您的 Amazon VPC 中建立安全群組,並在建立新的安全群組中具有特定的傳入和傳出規則。
-
「選用」。取消選取建立新安全群組中的核取方塊,以選取最多 5 個安全群組。
注意
現有的 Amazon VPC 安全群組必須設定特定的傳入和傳出規則,以允許網路流量。如需進一步了解,請參閱 Amazon MWAA 上 VPC 的安全性。
-
-
在環境類別下,選擇環境類別。
我們建議您選擇支援工作負載所需的最小大小。您可以隨時變更環境類別。
-
針對工作者計數上限,指定要在環境中執行的 Apache Airflow 工作者數量上限。
如需詳細資訊,請參閱高效能使用案例範例。
-
指定 Web 伺服器計數上限和 Web 伺服器計數下限,以設定 Amazon MWAA 如何擴展您環境中的 Apache Airflow Web 伺服器。
如需 Web 伺服器自動擴展的詳細資訊,請參閱設定 Amazon MWAA Web 伺服器自動擴展。
-
在加密下,選擇資料加密選項:
-
根據預設,Amazon MWAA 會使用 AWS 擁有的金鑰來加密您的資料。
-
「選用」。選擇自訂加密設定 (進階) 以選擇不同的 AWS KMS 金鑰。如果您選擇在此步驟中指定客戶受管金鑰,則必須指定 AWS KMS 金鑰 ID 或 ARN。AWS KMS Amazon MWAA 不支援別名和多區域金鑰。如果您在 Amazon S3 儲存貯體上為伺服器端加密指定了 Amazon S3 金鑰,則必須為 Amazon MWAA 環境指定相同的金鑰。
注意
您必須擁有 金鑰的許可,才能在 Amazon MWAA 主控台上選取它。您還必須連接 中所述的政策,授予 Amazon MWAA 使用金鑰的許可連接金鑰政策。
-
-
建議使用。在監控下,為 Airflow 記錄組態選擇一或多個日誌類別,將 Apache Airflow 日誌傳送至 CloudWatch Logs:
-
Airflow 任務日誌。選擇 Apache Airflow 任務日誌的類型,以傳送至日誌層級中的 CloudWatch Logs。
-
Airflow Web 伺服器日誌。選擇 Apache Airflow Web 伺服器日誌的類型,以在日誌層級中傳送至 CloudWatch Logs。
-
Airflow 排程器日誌。選擇 Apache Airflow 排程器日誌的類型,以在日誌層級中傳送至 CloudWatch Logs。
-
Airflow 工作者日誌。選擇 Apache Airflow 工作者日誌的類型,以傳送至日誌層級中的 CloudWatch Logs。
-
Airflow DAG 處理日誌。選擇 Apache Airflow DAG 處理日誌的類型,以在日誌層級中傳送至 CloudWatch Logs。
-
-
「選用」。針對 Airflow 組態選項,選擇新增自訂組態選項。
您可以從建議的 Apache Airflow 組態選項下拉式清單中選擇 Apache Airflow 版本,或指定自訂組態選項。例如,
core.default_task_retries
:3
。 -
「選用」。在標籤下,選擇新增標籤,將標籤與環境建立關聯。例如,
Environment
:Staging
。 -
在許可下,選擇執行角色:
-
根據預設,Amazon MWAA 會在建立新角色中建立執行角色。 您必須擁有建立 IAM 角色的許可,才能使用此選項。
-
「選用」。選擇輸入角色 ARN 以輸入現有執行角色的 Amazon Resource Name (ARN)。
-
-
選擇 Next (下一步)。
步驟三:檢閱和建立
若要檢閱環境摘要
-
檢閱環境摘要,選擇建立環境。
注意
建立環境大約需要二十到三十分鐘。