作业(旧版) - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

作业(旧版)

脚本中包含用于执行提取、转换和加载 (ETL) 工作的代码。您可以提供您自己的脚本,或者 AWS Glue 可以通过您的指导生成脚本。有关创建您自己的脚本的信息,请参阅提供您自己的自定义脚本

您可以在 AWS Glue 控制台中编辑脚本。当您编辑脚本时,您可以添加源、目标和转换。

编辑脚本
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/。然后选择 Jobs 选项卡。

  2. 在列表中选择一个作业,然后选择 ActionEdit script 以打开脚本编辑器。

    您还可以从任务详细信息页面访问脚本编辑器。选择 Script (脚本) 选项卡,然后选择 Edit script (编辑脚本)

脚本编辑器

利用 AWS Glue 脚本编辑器,您可以在脚本中插入、修改和删除源、目标和转换。脚本编辑器显示脚本和图表,可以帮助您直观呈现数据流。

要为脚本创建图表,请选择 Generate diagram (生成示意图)。AWS Glue 使用脚本中以 ## 开头的注释行来呈现示意图。要在图表中正确地表示脚本,必须将注释中的参数和 Apache Spark 代码中的参数保持同步。

脚本编辑器允许您在脚本中定位光标的任何位置添加代码模板。在编辑器的顶部,选择以下选项:

  • 要向脚本中添加源表,请选择 Source

  • 要向脚本中添加目标表,请选择 Target

  • 要向脚本中添加目标位置,请选择 Target location

  • 要向脚本中添加转换,请选择 Transform。有关脚本中调用的函数的信息,请参阅在 PySpark 中编写 AWS Glue ETL 脚本

  • 要向脚本中添加 Spigot,请选择 Spigot

在插入的代码中,修改注释和 Apache Spark 代码中的 parameters。例如,如果您添加 Spigot 转换,请验证 path@args 注释行和 output 代码行中都被替换。

Logs 选项卡显示在作业运行时与其关联的日志。将会显示最新的 1000 行。

Schema (架构) 选项卡显示选定源和目标的架构(在数据目录中可用时)。