本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Lake Formation 与一起使用 AWS Glue
数据工程师和 DevOps 专业人员使用 AWS Glue 带有 Apache Spark 的提取、转换和加载 (ETL),在 Amazon S3 中对其数据集进行转换,并将转换后的数据加载到数据湖和数据仓库中,用于分析、机器学习和应用程序开发。由于会有不同的团队访问 Amazon S3 中的相同数据集,因此必须根据其角色授予和限制权限。
AWS Lake Formation 是在此基础上构建的 AWS Glue,并且服务通过以下方式进行交互:
-
Lake Formation 和 AWS Glue 共享同一个数据目录。
-
以下 Lake Formation 控制台功能调用了 AWS Glue 控制台:
-
作业 – 有关更多信息,请参阅《AWS Glue 开发人员指南》中的添加作业。
-
爬网程序 – 有关更多信息,请参阅《AWS Glue 开发人员指南》中的使用爬网程序编录数据。
-
-
使用 Lake Formation 蓝图时生成的工作流程是 AWS Glue 工作流程。你可以在 Lake Formation 控制台和 Lake Formation 控制台中查看和管理这些工作流程 AWS Glue console。
-
Lake Formation 提供了机器学习转换,并以此为基础构建 AWS Glue API 操作。你可以在上创建和管理机器学习转换 AWS Glue console。有关更多信息,请参阅《AWS Glue 开发人员指南》中的机器学习转换。
您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。
注意
AWS Glue 5.0 或更高版本支持对 S3 支持的 Iceberg 和 Hive 表进行精细的访问控制。此功能允许您为 Apache Spark 作业中的读取查询配置表、行、列和单元格级别 AWS Glue 的访问控制。
支持事务表类型
通过应用 Lake Formation 权限,您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了中支持的交易表格式 AWS Glue 和 Lake Formation 权限。Lake Formation 强制执行这些 AWS Glue 操作权限。
表格式 | 描述和允许的操作 | 中支持 Lake Formation 权限 AWS Glue |
---|---|---|
Apache Hudi |
一种开放表格格式,用于简化增量数据处理和数据管线开发。 有关示例,请参阅中的 “使用 Hudi 框架”。 AWS Glue |
表级权限可用于 Hudi 表。 有关更多信息,请参阅限制。 |
Apache Iceberg |
一种开放表格格式,可将大量文件作为表进行管理。 有关示例,请参阅中的使用 Iceberg 框架。 AWS Glue |
AWS Glue 5.0 及更高版本允许您为 Iceberg 表的 Apache Spark 作业中的读取查询配置表、行、列和单元级别的访问控制。 AWS Glue 有关更多信息,请参阅限制。 |
Linux Foundation Delta Lake |
Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。 有关示例,请参阅中的使用 Delta Lake 框架 AWS Glue。 |
表级权限可用于 Delta Lake 表。 有关更多信息,请参阅限制。 |
其他资源
博客文章和存储库
-
AWS Cloudformation 模板和 pyspark 代码示例
存储库,用于使用 AWS Glue Apache Hudi 和 Amazon S3 分析流数据。