AWS Lake Formation usa o AWS Glue Data Catalog para armazenar metadados para os dados do Amazon S3 na forma de bancos de dados e tabelas. As tabelas armazenam informações sobre os dados subjacentes, incluindo informações de esquema, informações de partição e localização dos dados. Bancos de dados são coleções de tabelas. O catálogo de dados também contém links de recursos, que são links para bancos de dados e tabelas compartilhados em contas externas e são usados para acesso entre contas aos dados no data lake. Cada conta da AWS tem um catálogo de dados por região da AWS.
O Lake Formation fornece um modelo de permissões do sistema de gerenciamento de banco de dados relacional (RDBMS) para conceder ou revogar o acesso a bancos de dados, tabelas e colunas no catálogo de dados com dados subjacentes no Amazon S3.
Antes de aprender sobre os detalhes do modelo de permissões do Lake Formation, é útil revisar as seguintes informações básicas:
-
Data lakes gerenciados pelo Lake Formation residem em locais designados no Amazon Simple Storage Service (Amazon S3).
-
O Lake Formation mantém um catálogo de dados que contém metadados sobre dados de origem a serem importados para seus data lakes, como dados em logs e bancos de dados relacionais, e sobre dados em seus data lakes no Amazon S3. Os metadados são organizados como bancos de dados e tabelas. As tabelas de metadados contêm esquema, localização, particionamento e outras informações sobre os dados que elas representam. Bancos de dados de metadados são coleções de tabelas.
-
O catálogo de dados do Lake Formation é o mesmo catálogo de dados usado pelo AWS Glue. Você pode usar crawlers do AWS Glue para criar tabelas do catálogo de dados e pode usar tarefas de extração, transformação e carregamento (ETL) do AWS Glue para preencher os dados subjacentes em seus data lakes.
-
Os bancos de dados e tabelas no catálogo de dados são chamados de recursos do catálogo de dados. As tabelas no catálogo de dados são chamadas de tabelas de metadados para diferenciá-las das tabelas nas fontes de dados ou dos dados tabulares no Amazon S3. Os dados para os quais as tabelas de metadados apontam no Amazon S3 ou nas fontes de dados são chamados de dados subjacentes.
-
Uma entidade principal é um usuário ou função, um usuário ou grupo do Amazon QuickSight, um usuário ou grupo que se autentica com o Lake Formation por meio de um provedor de SAML ou, para controle de acesso entre contas, um ID de conta da AWS, ID da organização ou ID da unidade organizacional.
-
Crawlers AWS Glue criam tabelas de metadados, mas você também pode criar tabelas de metadados manualmente com o console do Lake Formation, a API ou o AWS Command Line Interface (AWS CLI). Ao criar uma tabela de metadados, você deve especificar uma localização. Quando você cria um banco de dados, o local é opcional. Os locais das tabelas podem ser locais do Amazon S3 ou locais de fonte de dados, como um banco de dados do Amazon Relational Database Service (Amazon RDS). Os locais do banco de dados são sempre locais do Amazon S3.
-
Serviços que se integram ao Lake Formation, como Amazon Athena e Amazon Redshift, podem acessar o catálogo de dados para obter metadados e verificar a autorização para executar consultas. Para obter uma lista completa de serviços integrados, consulte Integrações de serviços da AWS com o Lake Formation.
Tópicos
- Visão geral das permissões do Lake Formation
- Referência de personas e permissões do IAM do Lake Formation
- Alterando as configurações padrão do seu data lake
- Permissões implícitas do Lake Formation
- Referência de permissões do Lake Formation
- Integrar o Centro de Identidade do IAM
- Adicionar uma localização do Amazon S3 ao seu data lake
- Modo de acesso híbrido
- Criar tabelas e bancos de dados do catálogo de dados
- Importação de dados usando fluxos de trabalho no Lake Formation