本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
步骤 6:转换数据集
到目前为止,您仅在数据集的样本上测试了您的食谱。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。
任务运行时, DataBrew 将您的配方应用于数据集中的所有数据,并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集是分开的。 DataBrew 不会更改源数据。
在继续操作之前,请确保您的账户中有一个可以写入的 Amazon S3 存储桶。在该存储桶中,创建一个用于捕获任务输出的文件夹 DataBrew。要执行这些步骤,请按以下步骤操作。
创建 S3 存储桶和文件夹以捕获任务输出
-
登录 AWS Management Console 并打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/databrew/
。 如果您已经有一个 Amazon S3 存储桶可用,并且拥有该存储桶的写入权限,请跳过下一步。
-
如果您没有 Amazon S3 存储桶,请选择创建存储桶。在存储桶名称中,输入新存储桶的唯一名称。选择创建存储桶。
-
从存储桶列表中选择要使用的存储桶。
-
请选择 Create folder(创建文件夹)。
-
在 “文件夹名称” 中
databrew-output
,输入并选择 “创建文件夹”。
在创建用于存放任务的 Amazon S3 存储桶和文件夹后,请使用以下过程运行您的任务。
创建和运行配方作业
-
在导航窗格上,选择作业。
-
在 “配方作业” 选项卡上,选择 “创建作业”。
-
在 Job 名称中输入
chess-winner-summary
。 -
对于 Job 类型,选择创建配方作业。
-
在 Job 输入窗格上,执行以下操作:
-
对于 “运行于”,选择 “数据集”。
-
选择选择数据集以查看可用数据集列表,然后选择
chess-games
。 -
选择 “选择食谱” 以查看可用食谱列表,然后选择
chess-project-recipe
。
-
-
在 Job 输出设置窗格上,执行以下操作:
-
文件类型-已选择 CSV(以逗号分隔的值)。
-
S3 位置-选择此字段可查看可用 Amazon S3 存储桶的列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择
databrew-output
,然后选择选择。
-
-
在 “访问权限” 窗格上,选择
AwsGlueDataBrewDataAccessRole
。此服务相关角色允许您代表您 DataBrew访问您的 Amazon S3 存储桶。 -
选择 “创建并运行作业”。 DataBrew 使用您的设置创建作业,然后运行该作业。
-
在 Job 运行历史记录窗格上,等待任务状态从变
Running
为Succeeded
。 -
选择输出以访问 Amazon S3 控制台。选择您的 S3 存储桶,然后选择用于访问任务输出的
databrew-output
文件夹。 -
(可选)选择 “下载” 以下载文件并查看其内容。