选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

在可视化 ETL AWS Glue 作业中创作和运行数据准备配方

聚焦模式
在可视化 ETL AWS Glue 作业中创作和运行数据准备配方 - AWS Glue

在此场景中,您可以创作数据准备配方,而无需首先在 DataBrew 中创建配方。您必须满足以下条件后才能开始创作配方:

  • 已有活动的“数据预览”会话在运行。当数据预览会话准备就绪后,创作配方将会激活,并且您可以开始创作或编辑配方。

    屏幕截图显示数据预览会话的状态为“已完成”。
  • 确保启用了自动导入 Glue 库切换开关。

    屏幕截图显示“自动导入 Glue 库”选项已启用。

    您可以通过选择“数据预览”窗格中的齿轮图标来执行此操作。

    屏幕截图显示“自动导入 Glue 库”选项已启用。
在 AWS Glue Studio 中创作数据准备配方:
  1. 数据准备配方转换添加到作业画布中。您的转换应会连接到数据来源节点父级。添加数据准备配方节点时,该节点将使用相关库重新启动,并且您会看到正在准备数据帧。

    屏幕截图显示在添加数据准备配方后正在加载数据帧。
  2. “数据预览”会话准备就绪后,包含任何先前所应用步骤的数据将显示在屏幕底部。

  3. 选择创作配方。这将让您可以在 AWS Glue Studio 中创建新配方。

    屏幕截图显示了“转换”面板,其中包含“名称”和“节点”父级字段,以及“创作配方”选项。
  4. 在作业画布右侧的转换面板中,输入数据准备配方的名称。

  5. 左侧画布将被替换为数据的网格视图。右侧的转换面板将变为显示配方步骤。选择添加步骤,以添加配方中的第一个步骤。

    屏幕截图显示了选择“添加步骤”后的“转换”面板。选择某一列时,相关选项将动态变化。您可以选择排序、对列执行操作以及筛选值。
  6. 转换面板中,选择排序、对列执行操作以及筛选值。例如,选择重命名列

    屏幕截图显示了选择“添加步骤”后的“转换”面板。选择某一列时,相关选项将动态变化。您可以选择排序、对列执行操作以及筛选值。
  7. 在右侧的“转换”面板中,通过重命名列的选项,您可以选择要重命名的源列并输入新的列名。完成后,选择应用

    您可以预览每个步骤、撤销步骤、对步骤重新排序以及使用任何操作图标,例如“筛选”、“排序”、“拆分”、“合并”等。在数据网格中执行操作时,这些步骤将被添加到“转换”面板中的配方中。

    屏幕截图显示了“预览”数据网格,其中突出显示了工具栏。您可以使用其中的任何工具来应用操作,并且该操作将被添加到右侧“转换”面板中的配方中。

    如果需要进行更改,可以在“预览”窗格中预览每个步骤的结果、撤销某个步骤并对步骤重新排序,从而完成更改。例如:

    • 撤销/重做步骤 – 选择撤销图标即可撤销步骤。选择重做图标可以重复某个步骤。

      屏幕截图显示了“更多”图标。
    • 对步骤重新排序 – 对某个步骤重新排序时,AWS Glue Studio 将验证每个步骤并告知您该步骤是否无效。

  8. 应用某个步骤后,“转换”面板将显示配方中的所有步骤。您可以清除所有步骤以重新开始,选择“添加”图标以添加更多步骤,或选择完成创作配方

    屏幕截图显示了“转换”面板,其中包含添加到配方中的步骤。完成后,选择完成创作配方或选择“添加”图标以向配方添加更多步骤。
  9. 选择屏幕右上角的保存。在您保存作业之前将不会保存配方步骤。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。