在 AWS Glue Studio 中使用数据准备配方
借助数据准备配方转换,您可以使用交互式网格创作界面全新创作数据准备方法。此外您还可以导入现有的 AWS Glue DataBrew 配方,然后在 AWS Glue Studio 中对其进行编辑。
数据准备配方节点可从“资源”面板中找到。您可以将数据准备配方节点连接到可视化工作流程中的另一个节点,无论它是数据来源节点还是其他转换节点。选择 AWS Glue DataBrew 配方和版本后,配方中应用的步骤将显示在节点属性选项卡中。
先决条件
-
要导入 AWS Glue DataBrew 配方,您需要拥有 在 AWS Glue Studio 中导入 AWS Glue DataBrew 配方 中描述的必要 IAM 权限。
-
必须创建数据预览会话。
限制
-
仅 商业 DataBrew 区域才支持 AWS Glue DataBrew 配方。
-
并非所有 AWS Glue DataBrew 配方都受 AWS Glue 支持。有些配方将无法在 AWS Glue Studio 中运行。
-
不支持含有
UNION
和JOIN
转换的配方,不过 AWS Glue Studio 已经拥有“Join”和“Union”转换节点,这些节点可以在数据准备配方节点之前或之后使用。
-
-
从 AWS Glue 4.0 版开始的作业支持数据准备配方节点。在作业中添加数据准备配方节点后,将自动选择此版本。
-
数据准备配方节点需要 Python。当向作业中添加数据准备配方节点时,会自动设置此值。
-
如果向可视化图表添加新的数据准备配方节点,则将自动使用正确的库重新启动数据预览会话,以便使用该数据准备配方节点。
-
不支持导入或在数据准备配方节点中编辑以下转换:
GROUP_BY
、PIVOT
、UNPIVOT
和TRANSPOSE
。
其他功能
选择数据准备配方转换后,将可以在选择创作配方后执行其他操作。
-
添加步骤 – 您可以根据需要选择“添加步骤”图标向配方添加其他步骤,也可以选择某个操作来使用“预览”窗格中的工具栏。
-
导入配方 – 选择更多,然后选择导入配方以用于您的 AWS Glue Studio 作业。
-
下载为 YAML – 选择更多,然后选择下载为 YAML 以下载配方并在 AWS Glue Studio 之外保存。
-
下载为 JSON – 选择更多,然后选择下载为 JSON 以下载配方并在 AWS Glue Studio 之外保存。
-
撤销和重做配方步骤 – 在网格中使用数据时,可以在“预览”窗格中撤销和重做配方步骤。