使用 AWS Glue Studio 构建可视化 ETL 作业 - AWS Glue

使用 AWS Glue Studio 构建可视化 ETL 作业

AWS Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。AWS Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。

您可以使用 AWS Glue 生成的脚本,也可以提供您自己的脚本。借助源架构和目标位置或架构,AWS Glue Studio 代码生成器可以自动创建 Apache Spark API(PySpark)脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。

AWS Glue 可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式,可以编写常见的压缩格式。

登录到 AWS Glue 控制台

AWS Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 控制台的 ETLAWS Glue 部分中创建作业。

要查看现有任务,请登录 AWS Management Console,然后通过以下网址打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/。然后在 中选择 JobsAWS Glue (作业) 选项卡。Jobs (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

创建新任务时或保存任务后,您可以使用 AWS Glue Studio 修改您的 ETL 任务。您可以在可视编辑器中编辑节点或以开发人员模式编辑任务脚本,从而执行此操作。您还可以在可视编辑器中添加和删除节点,以创建更复杂的 ETL 任务。

在 AWS Glue Studio 中创建任务的后续步骤

您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。

创建和管理任务的后续步骤包括: