AWS Glue Studio 允许您对视觉作业进行参数化。由于生产和开发环境中的目录表名称可能不同,因此您可以为将在作业运行时运行的数据库和表定义和选择运行时参数。
使用 AWS Glue 数据目录节点时,作业参数允许您参数化源和目标,并将这些参数保存在作业中。当您将源和目标指定为参数时,就实现了作业的可重用性,尤其是在多个环境中使用同一个作业时。通过节省管理源和目标的时间和精力,此功能有助于跨部署环境提升代码。此外,您指定的自定义参数将覆盖 AWS Glue 作业特定运行的任何默认参数。
添加源和目标参数
无论您使用 AWS Glue 数据目录节点作为源或目标,都可以在 Job details(作业详情)选项卡的 Advanced properties(高级属性)部分中定义运行时参数。
-
选择 AWS Glue 数据目录节点作为源节点或目标节点。
-
选择 Job details(任务详细信息)选项卡。
-
选择 Advanced properties(高级属性)。
-
在 Job parameters(作业参数)部分中,输入键值。例如,
--db.source
将是数据库源的参数。您可以为键输入任何名称,只要键名称后面带有“破折号”即可。 -
输入值。例如,
databasename
将是正在参数化的数据库的值。 -
如果您要添加更多参数,请选择 Add new parameter(添加新参数)。最多允许 50 个参数。一旦定义了键值对,就可以在 AWS Glue 数据目录节点中使用该参数。
选择运行时参数
注意
无论 AWS Glue 数据目录节点是源节点还是目标节点,为数据库和表选择运行时参数的过程均相同。
-
选择 AWS Glue 数据目录节点作为源节点或目标节点。
-
在 Data source properties - Data Catalog(数据源属性 - 数据目录)选项卡中的 Database(数据库)下方,选择 Use runtime parameters(使用运行时参数)。
-
从下拉菜单中选择参数。例如,如果选择为源数据库定义的参数,该数据库将在您选择 Apply(应用)时自动填充到数据库下拉菜单中。
-
在 Table(表)部分中,选择已定义为源表的参数。在选择 Apply(应用)时,该表将自动填充为要使用的表。
-
保存并运行作业时,AWS Glue Studio 将在作业运行期间引用选定的参数。