选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

创建和使用 AWS Glue DataBrew 项目 - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用 AWS Glue DataBrew 项目

在中 AWS Glue DataBrew,项目是数据分析和转换工作的核心。

创建项目时,需要将两个基本组件组合在一起:

DataBrew 控制台以高度交互的直观用户界面呈现您的项目。它鼓励你尝试数百种数据转换,这样你就可以了解它们是如何工作的,以及它们对你的数据有什么影响。

您在项目视图中看到的数据是您的数据集的示例。由于数据集可能非常大,有数千甚至数百万行,因此使用样本有助于确保 DataBrew 控制台在以各种方式转换样本数据时保持响应能力。默认情况下,该样本由数据集中的前 500 行数据组成。您可以为样本大小选择不同的设置,也可以选择哪些行。

在转换示例数据时, DataBrew 可以帮助您构建和完善项目配方,这是您迄今为止应用 step-by-step的一系列转换。您的 work-in-progress食谱会自动保存,因此您可以随时离开项目视图,稍后返回,然后从上次停下来的地方继续前进。

当你的食谱准备好可供使用时,你可以发布它。发布配方使其可供 DataBrew 作业子系统使用,在那里你可以将配方应用于整个数据集,或者创建广泛的数据配置文件,让你了解数据的结构、内容和统计特征。

创建项目

使用以下步骤创建项目。

创建项目
  1. 登录 AWS Management Console 并打开 DataBrew 控制台。

  2. 在导航窗格上,选择 “项目”。然后选择 “创建项目”。

  3. 输入项目的名称。然后选择要附加到项目中的配方:

    • 如果您从头开始,请选择 “创建新食谱”。这样做会创建一个新的空配方并将其附加到您的项目中。

    • 如果您有之前发布的食谱要用于此项目,请选择 “编辑现有食谱”。如果该配方当前已附加到另一个项目,或者已为其定义了任何作业,则无法在新项目中使用它。选择 “浏览食谱” 以查看有哪些食谱可用。

    • 如果您有以前发布过的现有食谱并想要导入其步骤,请选择从食谱中导入步骤,然后执行以下操作:

      1. 选择 “浏览食谱” 以查看有哪些食谱可用。

      2. 选择要使用的食谱的已发布版本。一个配方可以有多个版本,具体取决于你在项目视图中工作时发布它的频率。

      3. 选择 “查看配方步骤” 以检查配方中的数据转换。

  4. 准备好食谱后,在选择数据集窗格中选择要使用的数据集

    • 我的数据集-选择您之前创建的数据集。有关更多信息,请参阅 创建项目。)

    • 示例文件-根据由维护的示例数据创建新的数据集 AWS。此示例数据是探索 DataBrew 可以做什么的好方法,而无需提供自己的数据。请务必输入数据集的名称。

    • 新数据集-创建新数据集。有关更多信息,请参阅 创建项目。

  5. 要获得访问权限,请选择允许从您的 Amazon S3 输入位置 DataBrew 进行读取的 AWS Identity and Access Management (IAM) 角色。对于您的 AWS 账户拥有的 S3 地点,您可以选择AwsGlueDataBrewDataAccessRole服务托管角色。这样做可以 DataBrew 访问您拥有的 S3 资源。

  6. 采样窗格上,您可以找到 DataBrew 用于从您的数据集构建数据样本的选项。

    在 “类型” 中,选择 DataBrew 应如何从数据集中获取行:

    • 使用前 n 行根据数据集中的前几行创建样本。

    • 使用随机行根据数据集中随机选择的行创建样本。

    • 选择要在样本中显示的行数:500、1,000、2,500,或者自定义样本大小,最多 5,000 行。较小的样本量可以 DataBrew 更快地执行转换,从而节省开发配方的时间。样本量越大,就能更准确地反映基础源数据的构成。但是,项目会话初始化和交互式转换的速度较慢。

  7. (可选)选择标签以将标签附加到您的数据集。

    标签是由用户定义的密钥和可选值组成的简单标签,可以更轻松地按目的、所有者、环境或其他条件管理、搜索和筛选 DataBrew 项目。

  8. 当设置符合您的需要时,选择创建作业

DataBrew 根据需要创建新数据集,根据需要创建新配方,构建数据样本,并创建交互式项目会话。此过程可能需要几分钟才能完成。当项目准备就绪可供使用时,您可以开始使用数据样本。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。