AWS Data Pipeline 不再提供給新客戶。現有客戶 AWS Data Pipeline 可繼續正常使用此服務。進一步了解
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Data Pipeline 入門
AWS Data Pipeline 可協助您透過可靠且經濟實惠的方式,排序、排程、執行和管理週期性資料處理工作負載。此服務可讓您根據商務邏輯,輕鬆使用內部部署和雲端中的結構化和非結構化資料來設計 extract-transform-load (ETL) 活動。
若要使用 AWS Data Pipeline,您可以建立「管道定義」以指定您的資料處理的商業邏輯。典型的管線定義包含定義要執行之工作的活動,以及定義輸入和輸出資料位置和類型的資料節點。
在本教學中,您會執行 shell 命令指令碼以計算 Apache Web 伺服器日誌中的 GET 請求數量。此管道每 15 分鐘執行一小時,並在每次反覆運算時將輸出寫入 Amazon S3。
先決條件
開始之前,請完成設定 AWS Data Pipeline中的任務。
管道物件
管道會使用下列物件:
- ShellCommandActivity
-
讀取輸入日誌檔案並計算錯誤的數量。
- S3 DataNode (輸入)
-
內含輸入日誌檔案的 S3 儲存貯體。
- S3 DataNode (輸出)
-
輸出的 S3 儲存貯體。
- Ec2Resource
-
AWS Data Pipeline 用來執行活動的運算資源。
請注意,如果您有大量的日誌檔案資料,您可以設定管道使用 EMR 叢集處理檔案,而不是 EC2 執行個體。
- 排程
-
定義在一小時內每 15 分鐘執行一次活動。
建立管道
開始使用 AWS Data Pipeline 的最快速方法,就是使用管道定義,也稱為「範本」。
建立管道
-
請在以下位置開啟AWS Data Pipeline主控台。
https://console.aws.amazon.com/datapipeline/ -
從導覽列上,選取一個區域。無論您的位置為何,皆可選取任何可用的區域。許多 AWS 資源都是針對特定的區域,但 AWS Data Pipeline 可讓您使用與管道不同區域的資源。
-
您看到的第一個畫面取決於您是否已在目前區域中建立管道。
-
如果您尚未在此區域建立管道,主控台會顯示簡介畫面。選擇立即開始使用。
-
如果您已在此區域中建立管道,則主控台會顯示一個頁面,列出該區域的管道。選擇 Create new pipeline (建立新的管道)。
-
-
在名稱中,輸入管線的名稱。
-
(選擇性) 在說明中,輸入管線的說明。
-
針對來源,選取使用範本建置,然後選取下列範本:入門使用ShellCommandActivity。
-
選取範本時會開啟 Parameters (參數) 區段,請保留其下方 S3 input folder (輸入 S3 資料夾) 和 Shell command to run (要執行的 Shell 命令) 的預設值。按一下 S3 output folder (輸出 S3 資料夾) 旁的資料夾圖示,選取其中一個儲存貯體或資料夾,然後按一下 Select (選取)。
-
保留 Schedule (排程) 下方的預設值。當您啟用管道時,管道即會開始執行,然後在一小時內每 15 分鐘執行一次。
您也可以改為選擇 Run once on pipeline activation (在管道啟用時執行一次)。
-
在「管線組態」下,保持啟用記錄。選擇記錄 S3 位置下方的資料夾圖示,選取其中一個值區或資料夾,然後選擇 [選取]。
如果您願意,您可以改為停用記錄。
-
在 [安全性/存取] 下,將 IAM 角色保持設定為 [預設]。
-
按一下 Activate (啟動)。
如果您願意,您可以選擇在 Architect 中編輯來修改此配管。例如,您可以加入先決條件。
監控執行中的管道
啟用管道後,即會前往 Execution details (執行詳細資訊) 頁面,您可在此監控管道的進度。
監控管道的進度
-
按一下 Update (更新) 或按 F5 以更新所顯示的狀態。
提示
如果未列出任何執行,請確認 Start (in UTC) (開始 (UTC 時間)) 和 End (in UTC) (結束 (UTC 時間)) 涵蓋了管道排程的開始和結束時間,接著按一下 Update (更新)。
-
當管道裡所有物件的狀態為
FINISHED
,表示您的管道已成功完成了排程任務。 -
如果您的管道未成功完成,請檢查管道設定是否有問題。關於管道執行個體執行失敗或未完成的故障排除,如需詳細資訊,請參閱 解決常見的問題。
檢視輸出
開啟 Amazon S3 主控台並導覽至您的儲存貯體。如果您在一小時內每 15 分鐘執行一次管道,您會看到四個含時間戳記的子資料夾。每個子資料夾都含有一個名為 output.txt
的輸出檔。因為我們每次都是在同一個輸入檔上執行指令碼,所以輸出檔都是相同的。
刪除管道
若要停止產生費用,請刪除管道。刪除配管會刪除配管定義及所有關聯物件。
若要刪除管線
-
在「列出配管」頁面上,選取您的管線。
-
按一下 [動作],然後選擇 [刪除]。
-
出現確認提示時,請選擇 Delete (刪除)。
如果您已完成本教學的輸出,請從 Amazon S3 儲存貯體刪除輸出資料夾。