在此场景中,您可以创作数据准备配方,而无需首先在 DataBrew 中创建配方。您必须满足以下条件后才能开始创作配方:
-
已有活动的“数据预览”会话在运行。当数据预览会话准备就绪后,创作配方将会激活,并且您可以开始创作或编辑配方。
-
确保启用了自动导入 Glue 库切换开关。
您可以通过选择“数据预览”窗格中的齿轮图标来执行此操作。
在 AWS Glue Studio 中创作数据准备配方:
-
将数据准备配方转换添加到作业画布中。您的转换应会连接到数据来源节点父级。添加数据准备配方节点时,该节点将使用相关库重新启动,并且您会看到正在准备数据帧。
-
“数据预览”会话准备就绪后,包含任何先前所应用步骤的数据将显示在屏幕底部。
-
选择创作配方。这将让您可以在 AWS Glue Studio 中创建新配方。
-
在作业画布右侧的转换面板中,输入数据准备配方的名称。
-
左侧画布将被替换为数据的网格视图。右侧的转换面板将变为显示配方步骤。选择添加步骤,以添加配方中的第一个步骤。
-
在转换面板中,选择排序、对列执行操作以及筛选值。例如,选择重命名列。
-
在右侧的“转换”面板中,通过重命名列的选项,您可以选择要重命名的源列并输入新的列名。完成后,选择应用。
您可以预览每个步骤、撤销步骤、对步骤重新排序以及使用任何操作图标,例如“筛选”、“排序”、“拆分”、“合并”等。在数据网格中执行操作时,这些步骤将被添加到“转换”面板中的配方中。
如果需要进行更改,可以在“预览”窗格中预览每个步骤的结果、撤销某个步骤并对步骤重新排序,从而完成更改。例如:
-
撤销/重做步骤 – 选择撤销图标即可撤销步骤。选择重做图标可以重复某个步骤。
-
对步骤重新排序 – 对某个步骤重新排序时,AWS Glue Studio 将验证每个步骤并告知您该步骤是否无效。
-
-
应用某个步骤后,“转换”面板将显示配方中的所有步骤。您可以清除所有步骤以重新开始,选择“添加”图标以添加更多步骤,或选择完成创作配方。
-
选择屏幕右上角的保存。在您保存作业之前将不会保存配方步骤。