将亚马逊EMR与 AWS Lake Formation - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将亚马逊EMR与 AWS Lake Formation

AWS Lake Formation 是一项托管服务,可帮助您发现、分类、清理和保护亚马逊简单存储服务 (S3) Simple Service 数据湖中的数据。Lake Formation 提供对 Glue 数据目录中的数据库和表的精细列级访问。 AWS 有关更多信息,请参阅什么是 AWS Lake Formation?

在亚马逊EMR版本 6.7.0 及更高版本中,您可以将基于 Lake Formation 的访问控制应用于提交到亚马逊集群的 Spark、Hive 和 Presto 任务。EMR要与 Lake Formation EMR 集成,您必须创建一个具有运行时角色的集群。运行时角色是您与 Amazon EMR 任务或查询关联的 AWS Identity and Access Management (IAM) 角色。EMR然后,Amazon 使用此角色访问 AWS 资源。有关更多信息,请参阅 Amazon EMR 步骤的运行时角色

亚马逊如何与 Lake F EMR ormation 合作

将亚马逊EMR与 Lake Formation 集成后,您可以使用StepAPI或使用 SageMaker Studio 对亚马逊EMR集群执行查询。然后,Lake Formation 通过亚马逊的临时证书提供对数据的访问权限EMR。此过程称为凭证售卖。有关更多信息,请参阅什么是 AWS Lake Formation?

以下简要概述了亚马逊EMR如何访问受 Lake Formation 安全策略保护的数据。

亚马逊如何EMR访问受 Lake Formation 安全策略保护的数据
  1. 用户提交亚马逊EMR查询 Lake Formation 中的数据。

  2. 亚马逊向 Lake Formation EMR 申请临时证书,以允许用户访问数据。

  3. Lake Formation 返回临时凭证。

  4. 亚马逊EMR发送查询请求,要求从 Amazon S3 检索数据。

  5. 亚马逊从 Amazon S3 EMR 接收数据,对其进行筛选,然后根据用户在 Lake Formation 中定义的用户权限返回结果。

有关将用户和组添加到 Lake Formation 策略中的更多信息,请参阅授予数据目录权限

先决条件

在整合亚马逊EMR和 Lake Formation 之前,您必须满足以下要求:

  • 在您的 Amazon EMR 集群上开启运行时角色授权。

  • 使用 AWS Glue 数据目录作为元数据存储。

  • 在 Lake For AWS mation 中定义和管理访问 Glue 数据目录中数据库、表和列的权限。有关更多信息,请参阅什么是 AWS Lake Formation?