

AWS Data Pipeline 不再提供給新客戶。的現有客戶 AWS Data Pipeline 可以繼續正常使用服務。[進一步了解](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 入門 AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline 可協助您可靠且符合成本效益地排序、排程、執行和管理經常性資料處理工作負載。此服務可讓您根據您的商業邏輯，輕鬆使用現場部署及雲端中的結構化和非結構化資料來設計擷取-轉換-負載 (ETL) 活動。

若要使用 AWS Data Pipeline，您可以建立*管道定義*，指定資料處理的商業邏輯。典型管道定義包含定義要執行之工作[的活動](dp-concepts-activities.md)，以及定義輸入和輸出資料位置和類型的[資料節點](dp-concepts-datanodes.md)。

在本教學中，您會執行 shell 命令指令碼以計算 Apache Web 伺服器日誌中的 GET 請求數量。此管道每隔 15 分鐘執行一個小時，並在每次反覆運算時將輸出寫入 Amazon S3。

**先決條件**  
開始之前，請完成[設定 的 AWS Data Pipeline](dp-get-setup.md)中的任務。

**管道物件**  
管道會使用下列物件：

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
讀取輸入日誌檔案並計算錯誤的數量。

[S3DataNode](dp-object-s3datanode.md) (輸入)  
內含輸入日誌檔案的 S3 儲存貯體。

[S3DataNode](dp-object-s3datanode.md) (輸出)  
輸出的 S3 儲存貯體。

[Ec2Resource](dp-object-ec2resource.md)  
 AWS Data Pipeline 用來執行活動的運算資源。  
請注意，如果您有大量的日誌檔案資料，您可以設定管道使用 EMR 叢集處理檔案，而不是 EC2 執行個體。

[Schedule](dp-object-schedule.md)  
定義在一小時內每 15 分鐘執行一次活動。

**Topics**
+ [建立管道](#dp-getting-started-create)
+ [監控執行中的管道](#dp-getting-started-monitor)
+ [檢視輸出](#dp-getting-started-output)
+ [刪除管道](#dp-getting-started-delete)

## 建立管道
<a name="dp-getting-started-create"></a>

開始使用 的最快速方法是 AWS Data Pipeline 使用稱為*範本*的管道定義。

**建立管道**

1. 在 https：//[https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/) 開啟 AWS Data Pipeline 主控台。

1. 從導覽列上，選取一個區域。無論您的位置為何，皆可選取任何可用的區域。許多 AWS 資源專屬於一個區域，但 AWS Data Pipeline 可讓您使用與管道不同區域中的資源。

1. 您看到的第一個畫面取決於您是否已在目前區域中建立管道。

   1. 如果您尚未在此區域中建立管道，主控台會顯示簡介畫面。選擇**立即開始使用**。

   1. 如果您已在此區域中建立管道，主控台會顯示一個頁面，列出您區域的管道。選擇**建立新的管道**。

1. 在**名稱**中，輸入管道的名稱。

1. （選用） 在**描述**中，輸入管道的描述。

1. 針對 **Source (來源)**，選取 **Build using a template (使用範本建置)**，然後選取以下範本：**Getting Started using ShellCommandActivity (使用 ShellCommandActivity 開始使用)**。

1. 選取範本時會開啟 **Parameters (參數)** 區段，請保留其下方 **S3 input folder (輸入 S3 資料夾)** 和 **Shell command to run (要執行的 Shell 命令)** 的預設值。按一下 **S3 output folder (輸出 S3 資料夾)** 旁的資料夾圖示，選取其中一個儲存貯體或資料夾，然後按一下 **Select (選取)**。

1. 保留 **Schedule (排程)** 下方的預設值。當您啟用管道時，管道即會開始執行，然後在一小時內每 15 分鐘執行一次。

   您也可以改為選擇 **Run once on pipeline activation (在管道啟用時執行一次)**。

1. 在**管道組態**下，保持啟用記錄。選擇 **S3 位置下日誌的**資料夾圖示，選取其中一個儲存貯體或資料夾，然後選擇**選取**。

   如果您願意，可以改為停用記錄。

1. 在**安全/存取**下，將 **IAM 角色**設定為**預設**。

1. 按一下 **Activate (啟動)**。

   如果您願意，可以在 **Architect 中選擇編輯**來修改此管道。例如，您可以新增先決條件。

## 監控執行中的管道
<a name="dp-getting-started-monitor"></a>

啟用管道後，即會前往 **Execution details (執行詳細資訊)** 頁面，您可在此監控管道的進度。

**監控管道的進度**

1. 按一下 **Update (更新)** 或按 F5 以更新所顯示的狀態。
**提示**  
如果未列出任何執行，請確認 **Start (in UTC) (開始 (UTC 時間))** 和 **End (in UTC) (結束 (UTC 時間))** 涵蓋了管道排程的開始和結束時間，接著按一下 **Update (更新)**。

1. 當管道裡所有物件的狀態為 `FINISHED`，表示您的管道已成功完成了排程任務。

1. 如果您的管道未成功完成，請檢查管道設定是否有問題。關於管道執行個體執行失敗或未完成的故障排除，如需詳細資訊，請參閱 [解決常見的問題](dp-check-when-run-fails.md)。

## 檢視輸出
<a name="dp-getting-started-output"></a>

開啟 Amazon S3 主控台並導覽至您的儲存貯體。如果您在一小時內每 15 分鐘執行一次管道，您會看到四個含時間戳記的子資料夾。每個子資料夾都含有一個名為 `output.txt` 的輸出檔。因為我們每次都是在同一個輸入檔上執行指令碼，所以輸出檔都是相同的。

## 刪除管道
<a name="dp-getting-started-delete"></a>

若要停止產生費用，請刪除您的管道。刪除管道會刪除管道定義和所有相關聯的物件。

**刪除管道**

1. 在**列出管道**頁面上，選取您的管道。

1. 按一下**動作**，然後選擇**刪除**。

1. 出現確認提示時，請選擇**刪除**。

如果您已完成本教學課程的輸出，請從 Amazon S3 儲存貯體中刪除輸出資料夾。