Integre a Amazon EMR com AWS Lake Formation - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Integre a Amazon EMR com AWS Lake Formation

AWS Lake Formation é um serviço gerenciado que ajuda você a descobrir, catalogar, limpar e proteger dados em um data lake do Amazon Simple Storage Service (S3). O Lake Formation fornece acesso refinado em nível de coluna a bancos de dados e tabelas no Glue Data Catalog. AWS Para ter mais informações, consulte O que é o AWS Lake Formation?

Com a EMR versão 6.7.0 e posterior da Amazon, você pode aplicar o controle de acesso baseado em Lake Formation às tarefas do Spark, Hive e Presto que você envia aos clusters da Amazon. EMR Para se integrar ao Lake Formation, você deve criar um EMR cluster com uma função de tempo de execução. Uma função de tempo de execução é uma função AWS Identity and Access Management (IAM) que você associa a EMR trabalhos ou consultas da Amazon. A Amazon EMR então usa essa função para acessar AWS recursos. Para obter mais informações, consulte Funções de tempo de execução para Amazon EMR Steps.

Como a Amazon EMR trabalha com a Lake Formation

Depois de integrar a Amazon EMR com o Lake Formation, você pode executar consultas nos EMR clusters da Amazon com o StepAPIou com o SageMaker Studio. Em seguida, o Lake Formation fornece acesso aos dados por meio de credenciais temporárias para a AmazonEMR. Esse processo chamado de fornecimento de credenciais. Para ter mais informações, consulte O que é o AWS Lake Formation?

A seguir, uma visão geral de alto nível de como a Amazon EMR obtém acesso aos dados protegidos pelas políticas de segurança do Lake Formation.

Como a Amazon EMR acessa dados protegidos pelas políticas de segurança da Lake Formation
  1. Um usuário envia uma EMR consulta à Amazon para obter dados no Lake Formation.

  2. A Amazon EMR solicita credenciais temporárias do Lake Formation para dar acesso aos dados do usuário.

  3. O Lake Formation retorna credenciais temporárias.

  4. EMRA Amazon envia a solicitação de consulta para recuperar dados do Amazon S3.

  5. A Amazon EMR recebe os dados do Amazon S3, os filtra e retorna os resultados com base nas permissões de usuário que o usuário definiu no Lake Formation.

Para obter mais informações sobre como adicionar usuários e grupos às políticas do Lake Formation, consulte Granting Data Catalog permissions.

Pré-requisitos

Você deve atender aos seguintes requisitos antes de integrar a Amazon EMR e a Lake Formation:

  • Ative a autorização da função de tempo de execução no seu EMR cluster da Amazon.

  • Use o AWS Glue Data Catalog como seu armazenamento de metadados.

  • Defina e gerencie permissões no Lake Formation para acessar bancos de dados, tabelas e colunas no AWS Glue Data Catalog. Para ter mais informações, consulte O que é o AWS Lake Formation?