

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。[了解详情](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 入门 AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline 帮助您可靠且经济高效地排序、计划、运行和管理重复的数据处理工作负载。该服务使您可以根据自己的业务逻辑，使用本地和云端的结构化和非结构化数据轻松设计 extract-transform-load (ETL) 活动。

要使用 AWS Data Pipeline，您需要创建一个*管道定义*来指定数据处理的业务逻辑。典型的管道定义由定义要执行工作的[活动](dp-concepts-activities.md)、定义输入和输出数据的位置和类型的[数据节点](dp-concepts-datanodes.md)组成。

在本教程中，您将运行 shell 命令脚本，统计 Apache Web 服务器日志中的 GET 请求数。此管道在 1 小时内每 15 分钟运行一次，并将每次迭代的输出写入 Amazon S3 中。

**先决条件**  
在开始之前，请完成[正在设置 AWS Data Pipeline](dp-get-setup.md)中的任务。

**管道对象**  
管道使用以下对象：

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
读取输入日志文件并统计错误数。

[S3 DataNode](dp-object-s3datanode.md) (input)  
包含输入日志文件的 S3 存储桶。

[S3 DataNode](dp-object-s3datanode.md) (output)  
用于输出的 S3 存储桶。

[Ec2Resource](dp-object-ec2resource.md)  
 AWS Data Pipeline 用于执行活动的计算资源。  
请注意，如果您有大量日志文件数据，则可以将管道配置为使用 EMR 集群而不是实例来处理文件。 EC2 

[Schedule](dp-object-schedule.md)  
定义活动在 1 小时内每 15 分钟执行一次。

**Topics**
+ [创建管道](#dp-getting-started-create)
+ [监控正在运行的管道](#dp-getting-started-monitor)
+ [查看输出](#dp-getting-started-output)
+ [删除管道](#dp-getting-started-delete)

## 创建管道
<a name="dp-getting-started-create"></a>

最快的入门方法 AWS Data Pipeline 是使用名为*模板*的管道定义。

**创建管道**

1. 打开 AWS Data Pipeline 控制台，网址为[https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/)。

1. 从导航栏中选择区域。您可以选择向您提供的任何区域，无需理会您身处的位置。许多 AWS 资源是特定于某个区域的，但 AWS Data Pipeline 允许您使用与管道不同区域的资源。

1. 您看到的第一个屏幕取决于您是否在当前区域创建了管道。

   1. 如果您尚未在此区域创建管道，则控制台会显示简介屏幕。选择 **Get started now**。

   1. 如果您已经在此区域创建了管道，则控制台会显示一个页面，其中列出了您在该区域的管道。选择**创建新管道**。

1. 在**名称**中，输入管道的名称。

1. （可选）对于**描述**，输入管道的描述。

1. 对于 “**源**”，选择 “**使用模板构建**”，然后选择以下模板：**使用入门 ShellCommandActivity**。

1. 在您选择模板时打开的 **Parameters** 部分下，将 **S3 input folder** 和 **Shell command to run** 保留为其默认值。单击 **S3 output folder** 旁边的文件夹图标，选择您的存储桶或文件夹之一，然后单击 **Select**。

1. 在 **Schedule** 下，保留默认值。当您激活管道时，管道开始运行，每 15 分钟运行一次，连续运行一小时。

   如果您愿意，您可以改为选择 **Run once on pipeline activation**。

1. 在**管道配置**下，将日志记录保持为启用状态。选择**日志的 S3 位置**下的文件夹图标，选择您的一个存储桶或文件夹，然后选择**选择**。

   如果您愿意，您也可以禁用日志记录。

1. 在**安全/访问**下，将 **IAM 角色**设置为**默认**。

1. 单击**激活**。

   如果您愿意，您可以选择**在 Architect 中编辑**来修改此管道。例如，您可以添加先决条件。

## 监控正在运行的管道
<a name="dp-getting-started-monitor"></a>

在激活管道后，您将转至 **Execution details** 页面，可在其中监控管道的进度。

**监控管道的进度**

1. 单击 **Update** 或按 F5 以更新显示的状态。
**提示**  
如果未列出任何运行，请确保 **Start (in UTC)** 和 **End (in UTC)** 包含管道的计划开始时间和结束时间，然后单击 **Update**。

1. 如果管道中的每个对象的状态均为 `FINISHED`，则表示管道已成功完成计划的任务。

1. 如果您的管道未成功完成，请检查您的管道设置是否有问题。有关管道的实例运行失败或未完成的问题排查的更多信息，请参阅[解决常见问题](dp-check-when-run-fails.md)。

## 查看输出
<a name="dp-getting-started-output"></a>

打开 Amazon S3 控制台并导航到您的存储桶。如果您在 1 小时中每 15 分钟运行一次管道，则会看到带有时间戳的子文件夹。每个子文件夹中包含一个名为 `output.txt` 的文件。由于我们每次在同一个输入文件上运行脚本，输出文件相同。

## 删除管道
<a name="dp-getting-started-delete"></a>

要停止产生费用，请删除您的管道。删除管道会删除管道定义和所有关联对象。

**删除管道**

1. 在**列出管道**页面中选择管道。

1. 单击**操作**，然后选择**删除**。

1. 当系统提示进行确认时，选择 **Delete（删除）**。

如果您完成了本教程的输出，请从您的 Amazon S3 存储桶删除输出文件夹。