在 AWS Glue Studio 中使用数据准备配方 - AWS Glue

在 AWS Glue Studio 中使用数据准备配方

借助数据准备配方转换,您可以使用交互式网格创作界面全新创作数据准备方法。此外您还可以导入现有的 AWS Glue DataBrew 配方,然后在 AWS Glue Studio 中对其进行编辑。

数据准备配方节点可从“资源”面板中找到。您可以将数据准备配方节点连接到可视化工作流程中的另一个节点,无论它是数据来源节点还是其他转换节点。选择 AWS Glue DataBrew 配方和版本后,配方中应用的步骤将显示在节点属性选项卡中。

先决条件

限制

  • 商业 DataBrew 区域才支持 AWS Glue DataBrew 配方。

  • 并非所有 AWS Glue DataBrew 配方都受 AWS Glue 支持。有些配方将无法在 AWS Glue Studio 中运行。

    • 不支持含有 UNIONJOIN 转换的配方,不过 AWS Glue Studio 已经拥有“Join”和“Union”转换节点,这些节点可以在数据准备配方节点之前或之后使用。

  • 从 AWS Glue 4.0 版开始的作业支持数据准备配方节点。在作业中添加数据准备配方节点后,将自动选择此版本。

  • 数据准备配方节点需要 Python。当向作业中添加数据准备配方节点时,会自动设置此值。

  • 如果向可视化图表添加新的数据准备配方节点,则将自动使用正确的库重新启动数据预览会话,以便使用该数据准备配方节点。

  • 不支持导入或在数据准备配方节点中编辑以下转换:GROUP_BYPIVOTUNPIVOTTRANSPOSE

其他功能

选择数据准备配方转换后,将可以在选择创作配方后执行其他操作。

  • 添加步骤 – 您可以根据需要选择“添加步骤”图标向配方添加其他步骤,也可以选择某个操作来使用“预览”窗格中的工具栏。

    屏幕截图显示了“添加配方”图标。
    屏幕截图显示了“添加配方”图标。
  • 导入配方 – 选择更多,然后选择导入配方以用于您的 AWS Glue Studio 作业。

    屏幕截图显示了“更多”图标。
    屏幕截图显示了“更多”图标。
  • 下载为 YAML – 选择更多,然后选择下载为 YAML 以下载配方并在 AWS Glue Studio 之外保存。

  • 下载为 JSON – 选择更多,然后选择下载为 JSON 以下载配方并在 AWS Glue Studio 之外保存。

  • 撤销和重做配方步骤 – 在网格中使用数据时,可以在“预览”窗格中撤销和重做配方步骤。

    屏幕截图显示了“更多”图标。