Lake Formation 中的蓝图和工作流 - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Lake Formation 中的蓝图和工作流

工作流程封装了复杂的多任务提取、转换和加载 () 活动。ETL工作流生成 AWS Glue 爬虫、作业和触发器,以协调数据的加载和更新。Lake Formation 将工作流作为单个实体来执行和跟踪。您可以将工作流配置为按需或按计划运行。

你在 Lake Formation 中创建的工作流程可以在 AWS Glue 控制台作为有向无环图 (DAG)。每个DAG节点都是一个作业、爬虫或触发器。要监控进度并进行故障排除,您可以跟踪工作流中每个节点的状态。

Lake Formation 工作流完成后,运行该工作流的用户将获得对该工作流创建的数据目录表的 Lake Formation SELECT 权限。

您也可以在中创建工作流程 AWS Glue。 但是,由于 Lake Formation 允许您根据蓝图创建工作流程,因此在 Lake Formation 中创建工作流程要简单得多,自动化程度也更高。Lake Formation 提供以下类型的蓝图:

  • 数据库快照-将来自所有表的数据从JDBC源加载或重新加载到数据湖中。您可以根据排除模式从该源中排除某些数据。

  • 增量数据库-根据先前设置的书签,仅将来自JDBC源的新数据加载到数据湖中。您可以指定JDBC源数据库中要包含的各个表。对于每个表,您可以选择书签列和书签排序顺序,以跟踪之前加载的数据。首次对一组表运行增量数据库蓝图时,工作流会加载表中的所有数据,并为下一次增量数据库蓝图运行设置书签。因此,您可以使用增量数据库蓝图(而不是数据库快照蓝图)来加载所有数据,前提是将数据来源中的每个表指定为参数。

  • 日志文件 — 从日志文件源批量加载数据,包括 Elastic Load Balanc AWS CloudTrail ing 日志和 Application Load Balance 日志。

使用下表可帮助确定是使用数据库快照蓝图还是增量数据库蓝图。

在以下情况下使用数据库快照... 在以下情况下使用增量数据库...
  • 架构演变是灵活的。(将重命名列,删除以前的列,并在其位置添加新列。)

  • 源和目标之间需要完全一致。

  • 架构演变是增量的。(只有连续添加列。)

  • 仅添加新行;不更新以前的行。

注意

用户无法编辑 Lake Formation 创建的蓝图和工作流。