Usando AWS Lake Formation com a Amazon EMR - AWS Lake Formation

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando AWS Lake Formation com a Amazon EMR

EMRA Amazon é uma plataforma de cluster AWS gerenciada flexível na qual você pode executar qualquer código personalizado em estruturas de big data compatíveis, como Hadoop Map-Reduce, Spark, Hive, Presto etc. As organizações também usam EMR a Amazon para executar aplicativos de processamento de dados em lote e streaming em um cluster altamente distribuído. Usando o Apache Spark na AmazonEMR, você pode executar suas transformações de dados e códigos personalizados em bancos de dados e tabelas cujas permissões são gerenciadas pelo Lake Formation.

Há três opções para implantar a AmazonEMR:

  • EMRem EC2

  • EMRSem servidor

  • Amazon EMR em EKS

Para obter mais informações, consulte Integrar a Amazon EMR com o Lake Formation ou Usar o EMR Serverless com AWS Lake Formation para um controle de acesso refinado

Suporte a formatos de tabelas transacionais

As EMR versões 6.15.0 e superiores da Amazon incluem suporte para permissões de controle de acesso em nível de tabela, linha, coluna e célula do Lake Formation nos formatos de tabela Apache Hudi, Apache Iceberg e Delta Lake quando você lê e grava dados com o Spark. SQL

Para ver as limitações, consulte Considerations for Amazon EMR with Lake Formation.

Formatos de tabela compatíveis
Formato da tabela Descrição e operações permitidas Permissões do Lake Formation suportadas na Amazon EMR

Apache Hudi

Um formato de tabela aberta usado para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados.

Para obter uma lista das operações compatíveis, consulte Apache Hudi e Lake Formation.

A Amazon EMR oferece suporte ao controle de acesso em nível de tabela, linha, coluna e célula com o Apache Hudi.

Apache Iceberg

Um formato de tabela aberta que gerencia grandes coleções de arquivos como tabelas.

Para obter uma lista das operações compatíveis, consulte Apache Iceberg e Lake Formation.

A Amazon EMR oferece suporte ao controle de acesso em nível de tabela, linha, coluna e célula com o Apache Iceberg.

Linux Foundation Delta Lake

O Delta Lake é um projeto de código aberto que ajuda a implementar arquiteturas modernas de data lake comumente criadas no Amazon S3 ou no Hadoop Distributed File System (). HDFS

Para obter uma lista das operações compatíveis, consulte Delta Lake e Lake Formation.

A Amazon EMR oferece suporte ao controle de acesso em nível de tabela, linha, coluna e célula com tabelas Delta Lake.

Recursos adicionais