

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 步骤 6：转换数据集
<a name="getting-started.06"></a>

到目前为止，您仅在数据集的样本上测试了您的配置。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。

当作业运行时，DataBrew 会将您的配方应用于数据集中的所有数据，并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集分离。DataBrew 不会更改源数据。

在您继续之前，请确保您的账户中有 Amazon S3 存储桶可供您写入。在该存储桶中，请创建一个文件夹来捕获 DataBrew 的作业输出。要执行这些步骤，请使用以下过程。

**创建 S3 存储桶和文件夹以捕获作业输出**

1. 登录到 AWS 管理控制台，然后通过以下网址打开 Amazon S3 控制台：[https://console.aws.amazon.com/databrew/](https://console.aws.amazon.com/s3/)。

   如果您已有一个 Amazon S3 存储桶可用，并且您具有写入权限，请跳到下一个步骤。

1. 如果没有 Amazon S3 存储桶，请选择**创建存储桶**。对于**存储桶名称**，请为新存储桶输入一个唯一名称。选择**创建存储桶 **。

1. 从存储桶列表中，选择您想要使用的存储桶。

1. 选择**创建文件夹**。

1. 对于**文件夹名称**，输入 `databrew-output`，然后选择**创建文件夹**。

在创建用于包含作业的 Amazon S3 存储桶和文件夹后，请使用以下过程运行您的作业。

**创建并运行配方作业**

1. 在导航窗格上，选择**作业**。

1. 在**配方作业**选项卡上，选择**创建作业**。

1. 对于**作业名称**，输入 `chess-winner-summary`。

1. 对于**作业类型**，选择**创建配方作业**。

1. 在**作业输入**窗格上，执行以下操作：
   + 对于**运行于**，选择**数据集**。
   + 选择**选择数据集**以查看可用数据集列表，然后选择 `chess-games`。
   + 选择**选择配方**以查看可用配方列表，然后选择 `chess-project-recipe`。

1. 在**作业输出设置**窗格上，执行以下操作：
   + **文件类型**：选择 **CSV**（逗号分隔值）。
   + **S3 位置**：选择此字段可查看可用 Amazon S3 存储桶列表，然后选择要使用的存储桶。然后选择**浏览**。在文件夹列表中，选择 `databrew-output`，然后选择**选择**。

1. 在**访问权限**窗格上，选择 `AwsGlueDataBrewDataAccessRole`。此服务相关角色让 DataBrew 可以代表您访问 Amazon S3 存储桶。

1. 选择**创建并运行作业**。DataBrew 将使用您的设置创建一个作业，然后运行它。

1. 在**作业运行历史记录**窗格上，等待作业状态从 `Running` 更改为 `Succeeded`。

1. 选择**输出**以访问 Amazon S3 控制台。选择您的 S3 存储桶，然后选择用于访问作业输出的 ` databrew-output` 文件夹。

1. （可选）选择**下载**以下载文件并查看其内容。