本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Amazon AWS Lake Formation 上使用 EMR
Amazon EMR 是一个灵活的 AWS 托管集群平台,您可以在支持的大数据框架(例如 Hadoop Map-Reduce、Spark、Hive、Presto 等)上运行任何自定义代码。组织还使用 Amazon EMR 在高度分布的集群中运行批处理和流式数据处理应用程序。在亚马逊上使用 Apache SparkEMR,您可以在权限由 Lake Formation 管理的数据库和表上运行数据转换和自定义代码。
部署 Amazon 有三种选择EMR:
-
EMRon EC2
-
EMR无服务器
-
Amazon EMR on EKS
有关更多信息,请参阅将亚马逊EMR与 Lake Formation 集成或使用EMR无服务器 AWS Lake Formation 进行精细访问控制
支持事务表格格式
当你使用 Spark 读取和写入数据时,亚马逊EMR版本 6.15.0 及更高版本包括支持 A pache Hudi、Apache Ic eberg 和 Del ta Lake 表格式的 Lak
有关限制,请参阅亚马逊EMR使用 Lake Formation 的注意事项。
表格式 | 描述和允许的操作 | 亚马逊支持 Lake Formation 权限 EMR |
---|---|---|
Apache Hudi |
一种开放表格格式,用于简化增量数据处理和数据管线开发。 有关支持的操作列表,请参阅 Apache Hudi 和 Lake Formation。 |
亚马逊通过 Apache Hudi EMR 支持表、行、列和单元格级别的访问控制。 |
Apache Iceberg |
一种开放表格格式,可将大量文件作为表进行管理。 有关支持的操作列表,请参阅 Apache Iceberg 和 Lake Formation。 |
亚马逊通过 Apache Iceberg EMR 支持表、行、列和单元格级别的访问控制。 |
Linux Foundation Delta Lake |
Delta Lake 是一个开源项目,可帮助实现通常在 Amazon S3 或 Hadoop 分布式文件系统 () HDFS 上构建的现代数据湖架构。 有关支持的操作列表,请参阅 Delta Lake 和 Lake Formation。 |
Amazon EMR 支持使用 Delta Lake 表进行表、行、列和单元级别的访问控制。 |