As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando AWS Lake Formation com AWS Glue
Engenheiros e DevOps profissionais de dados usam AWS Glue o Extract, Transform and Load (ETL) com o Apache Spark para realizar transformações em seus conjuntos de dados no Amazon S3 e carregar os dados transformados em lagos de dados e armazéns de dados para análise, aprendizado de máquina e desenvolvimento de aplicativos. Com equipes diferentes acessando o mesmo conjunto de dados no Amazon S3, é imperativo conceder e restringir permissões com base em seus perfis.
AWS Lake Formation é construído e AWS Glue os serviços interagem das seguintes maneiras:
-
Lake Formation e AWS Glue compartilham o mesmo catálogo de dados.
-
Os seguintes atributos do console Lake Formation invocam o console AWS Glue:
-
Trabalhos — Para obter mais informações, consulte Como adicionar trabalhos no Guia do desenvolvedor do AWS Glue .
-
Crawlers – Para obter mais informações, consulte Catalogação de tabelas com um Crawler Guia do desenvolvedor do AWS Glue .
-
-
Os fluxos de trabalho gerados quando você usa um esquema do Lake Formation são fluxos de trabalho AWS Glue. Você pode visualizar e gerenciar esses fluxos de trabalho no console do Lake Formation e no console AWS Glue.
-
As transformações de aprendizado de máquina são fornecidas com o Lake Formation e são baseadas em AWS Glue API operações. Você cria e gerencia transformações de machine learning no console AWS Glue. Para obter mais informações, consulte Transformações de machine learning no Guia do desenvolvedor do AWS Glue .
Você pode usar o controle de acesso refinado do Lake Formation para gerenciar seus recursos existentes do catálogo de dados e os locais de dados do Amazon S3.
nota
AWS Glue ETLrequer acesso total à tabela inteira enquanto busca dados da localização subjacente do Amazon S3. AWS Glue ETLo trabalho falhará se você aplicar permissões em nível de coluna em uma tabela.
Suporte para tipos de tabelas transacionais
A aplicação das permissões do Lake Formation permite que você proteja seus dados transacionais em seus data lakes baseados no Amazon S3. A tabela abaixo lista os formatos de tabela transacional suportados AWS Glue e as permissões do Lake Formation. Lake Formation impõe essas permissões para AWS Glue operações.
Formatos de tabela compatíveis | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Formato da tabela | Descrição e operações permitidas | Permissões do Lake Formation suportadas em AWS Glue | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Hudi |
Um formato de tabela aberta usado para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados. Para exemplos, consulte Usando a estrutura Hudi em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Hudi. Para obter mais informações, consulte Limitações. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Iceberg |
Um formato de tabela aberta que gerencia grandes coleções de arquivos como tabelas. Para obter exemplos, consulte Usando a estrutura Iceberg em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Iceberg. Para obter mais informações, consulte Limitações. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linux Foundation Delta Lake |
O Delta Lake é um projeto de código aberto que ajuda a implementar arquiteturas modernas de data lake comumente criadas no Amazon S3 ou no Hadoop Distributed File System (). HDFS Para ver exemplos, consulte Usando a estrutura Delta Lake em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Delta Lake. Para obter mais informações, consulte Limitações. |
Recursos adicionais
Publicações em blogs e repositórios
-
Escrevendo em tabelas do Apache Hudi usando conector personalizado AWS Glue
-
AWS repositório do modelo Cloudformation e amostra de código pyspark
para analisar dados de streaming usando o Apache Hudi e o AWS Glue Amazon S3.