在 Amazon AWS Lake Formation 上使用 EMR - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon AWS Lake Formation 上使用 EMR

Amazon EMR 是一个灵活的 AWS 托管集群平台,您可以在支持的大数据框架(例如 Hadoop Map-Reduce、Spark、Hive、Presto 等)上运行任何自定义代码。组织还使用 Amazon EMR 在高度分布的集群中运行批处理和流式数据处理应用程序。在亚马逊上使用 Apache SparkEMR,您可以在权限由 Lake Formation 管理的数据库和表上运行数据转换和自定义代码。

部署 Amazon 有三种选择EMR:

  • EMRon EC2

  • EMR无服务器

  • Amazon EMR on EKS

有关更多信息,请参阅将亚马逊EMR与 Lake Formation 集成使用EMR无服务器 AWS Lake Formation 进行精细访问控制

支持事务表格格式

当你使用 Spark 读取和写入数据时,亚马逊EMR版本 6.15.0 及更高版本包括支持 A pache Hudi、Apache Ic eberg 和 Del ta Lake 表格式的 Lak e Formation 表、行、列和单元级访问控制权限。SQL

有关限制,请参阅亚马逊EMR使用 Lake Formation 的注意事项

支持的表格格式
表格式 描述和允许的操作 亚马逊支持 Lake Formation 权限 EMR

Apache Hudi

一种开放表格格式,用于简化增量数据处理和数据管线开发。

有关支持的操作列表,请参阅 Apache Hudi 和 Lake Formation

亚马逊通过 Apache Hudi EMR 支持表、行、列和单元格级别的访问控制。

Apache Iceberg

一种开放表格格式,可将大量文件作为表进行管理。

有关支持的操作列表,请参阅 Apache Iceberg 和 Lake Formation

亚马逊通过 Apache Iceberg EMR 支持表、行、列和单元格级别的访问控制。

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实现通常在 Amazon S3 或 Hadoop 分布式文件系统 () HDFS 上构建的现代数据湖架构。

有关支持的操作列表,请参阅 Delta Lake 和 Lake Formation

Amazon EMR 支持使用 Delta Lake 表进行表、行、列和单元级别的访问控制。

其他 资源