O que é AWS Lake Formation? - AWS Lake Formation

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que é AWS Lake Formation?

Bem-vindo ao Guia do AWS Lake Formation desenvolvedor.

AWS Lake Formation ajuda você a governar, proteger e compartilhar dados de forma centralizada e global para análise e aprendizado de máquina. Com o Lake Formation, você pode gerenciar um controle de acesso refinado para seus dados de data lake no Amazon Simple Storage Service (Amazon S3) e seus metadados no AWS Glue Data Catalog.

O Lake Formation fornece seu próprio modelo de permissões que aumenta o modelo de IAM permissões. O modelo de permissões do Lake Formation permite acesso refinado aos dados armazenados em lagos de dados por meio de um mecanismo simples de concessão ou revogação, muito parecido com um sistema de gerenciamento de banco de dados relacional (). RDBMS As permissões do Lake Formation são aplicadas usando controles granulares nos níveis de coluna, linha e célula em todos os serviços de AWS análise e aprendizado de máquina, incluindo Amazon Athena, Amazon Redshift Spectrum, Amazon QuickSight Amazon e. EMR AWS Glue

O modo de acesso híbrido Lake Formation AWS Glue Data Catalog permite que você proteja e acesse os dados catalogados usando as permissões e políticas de permissões do Lake Formation para Amazon S3 AWS Glue e IAM ações. Com o modo de acesso híbrido, os administradores de dados podem integrar as permissões do Lake Formation de forma seletiva e incremental, concentrando-se em um caso de uso do data lake por vez.

O Lake Formation também permite que você compartilhe dados interna e externamente em várias AWS organizações ou diretamente com IAM diretores em outra conta Contas da AWS, fornecendo acesso refinado aos metadados e aos dados subjacentes. AWS Glue Data Catalog

Características do Lake Formation

O Lake Formation o ajuda a desfazer silos de dados e combinar diferentes tipos de dados estruturados e não estruturados em um repositório centralizado. Primeiro, identifique os armazenamentos de dados existentes no Amazon S3 ou em bancos de dados relacionais e sem SQL bancos de dados e mova os dados para seu data lake. Em seguida, rastreie, catalogue e prepare os dados para análise. Em seguida, forneça aos usuários acesso seguro de autoatendimento aos dados por meio de serviços de análise de sua escolha.

Ingestão e gerenciamento de dados

Importe dados de bancos de dados já existentes AWS

Depois de especificar onde estão seus bancos de dados existentes e fornecer suas credenciais de acesso, o Lake Formation lê os dados e seus metadados (esquema) para entender o conteúdo da fonte de dados. Em seguida, ele importa os dados para seu novo data lake e registra os metadados em um catálogo central. Com o Lake Formation, você pode importar dados dos bancos de dados MySQL, PostgreSQL, SQL Server, MariaDB e Oracle executados na Amazon RDS ou hospedados na Amazon. EC2 Tanto o carregamento de dados em massa quanto o incremental são suportados.

Importar dados de outras fontes externas

Você pode usar o Lake Formation para mover dados de bancos de dados locais conectando-se à Java Database Connectivity (JDBC). Identifique suas fontes de destino e forneça credenciais de acesso no console, e o Lake Formation lê e carrega seus dados no data lake. Para importar dados de bancos de dados diferentes dos listados acima, você pode criar ETL trabalhos personalizados com AWS Glue o.

Catalogue e rotule seus dados

Você pode usar AWS Glue rastreadores para ler seus dados no Amazon S3, extrair o esquema do banco de dados e da tabela e armazenar esses dados em um ambiente pesquisável. AWS Glue Data Catalog Em seguida, use Lake Formation Controle de acesso baseado em tags do Lake Formation (TBAC) para gerenciar permissões em bancos de dados, tabelas e colunas. Para obter mais informações sobre como adicionar tabelas ao catálogo de dados, consulte Criar tabelas e bancos de dados do catálogo de dados.

Gerenciamento de segurança

Defina e gerencie controles de acesso

O Lake Formation fornece um único local para gerenciar os controles de acesso aos dados em seu data lake. Você pode definir políticas de segurança que restrinjam o acesso aos dados nos níveis de banco de dados, tabela, coluna, linha e célula. Essas políticas se aplicam a IAM usuários e funções e a usuários e grupos durante a federação por meio de um provedor de identidade externo. Você pode usar controles refinados para acessar dados protegidos pelo Lake Formation no Amazon Redshift Spectrum, Athena e Amazon for Apache AWS Glue ETL Spark. EMR Sempre que você criar IAM identidades, siga as IAM melhores práticas. Para obter mais informações, consulte as melhores práticas de segurança no Guia IAM do usuário.

Modo de acesso híbrido

O modo de acesso híbrido do Lake Formation oferece a flexibilidade de habilitar seletivamente as permissões do Lake Formation para bancos de dados e tabelas no AWS Glue Data Catalog. Com o modo de acesso híbrido, agora você tem um caminho incremental que permite definir permissões do Lake Formation para um conjunto específico de usuários sem interromper as políticas de permissão de outros usuários ou workload existentes. Para obter mais informações, consulte Modo de acesso híbrido.

Implementar o registro em log de auditoria

O Lake Formation fornece registros de auditoria abrangentes CloudTrail para monitorar o acesso e mostrar conformidade com políticas definidas centralmente. Você pode auditar o histórico de acesso aos dados em serviços de análise e machine learning que leem os dados em seu data lake por meio do Lake Formation. Isso permite que você veja quais usuários ou funções tentaram acessar quais dados, com quais serviços e quando. Você pode acessar os registros de auditoria da mesma forma que acessa qualquer outro CloudTrail registro usando o console CloudTrail APIs e. Para obter mais informações sobre CloudTrail registros, consulteRegistrando chamadas da API AWS Lake Formation usando AWS CloudTrail.

Segurança por linha e célula

O Lake Formation fornece filtros de dados que permitem restringir o acesso a uma combinação de colunas e linhas. Use a segurança em nível de linha e célula para proteger dados confidenciais, como Informações Pessoais Identificáveis (). PII Para obter mais informações sobre segurança por linha, consulte Filtragem de dados e segurança por célula no Lake Formation.

Controle de acesso com base em tags

Use o controle de acesso baseado em tags do Lake Formation para gerenciar centenas ou até milhares de permissões de dados criando rótulos personalizados chamados LF-tags. Agora você pode definir tags LF e anexá-las a bancos de dados, tabelas ou colunas. Em seguida, compartilhe o acesso controlado entre serviços analíticos, de aprendizado de máquina (ML) e de extração, transformação e carregamento (ETL) para consumo. As tags LF garantem que a governança de dados possa ser escalada facilmente substituindo as definições de políticas de milhares de recursos por algumas tags lógicas. O Lake Formation fornece uma pesquisa baseada em texto sobre esses metadados, para que seus usuários possam encontrar rapidamente os dados que precisam analisar.

Acesso entre contas

Os recursos de gerenciamento de permissões do Lake Formation simplificam a proteção e o gerenciamento de lagos de dados distribuídos em várias AWS contas por meio de uma abordagem centralizada, fornecendo controle de acesso refinado ao catálogo de dados e aos locais do Amazon S3. Para obter mais informações, consulte Compartilhamento de dados entre contas no Lake Formation.

Compartilhamento de dados

O recurso de compartilhamento de dados permite configurar permissões em conjuntos de dados armazenados em diferentes fontes de dados, como o Amazon Redshift, sem migrar dados ou metadados para o Amazon S3 ou o AWS Glue Data Catalog. Você pode usar os seguintes métodos para compartilhar dados no Lake Formation:

Para obter mais informações, consulte Compartilhamento de dados no Lake Formation.

  • Integração do Lake Formation com o compartilhamento de dados do Amazon Redshift – Use o Lake Formation para gerenciar centralmente as permissões de acesso por banco de dados, tabela, coluna e linha das unidades de compartilhamento de dados do Amazon Redshift e restringir o acesso dos usuários a objetos em uma unidade de compartilhamento de dados.

  • Conectando-se AWS Glue Data Catalog a metástores externos — Conecte-se AWS Glue Data Catalog a metastores externos para gerenciar permissões de acesso em conjuntos de dados no Amazon S3 usando o Lake Formation. Não é necessária a migração de metadados para AWS Glue Data Catalog o.

    Para ter mais informações, consulte Gerenciamento de permissões em conjuntos de dados que usam repositórios de dados externos

  • Integrando o Lake Formation com o AWS Data Exchange — O Lake Formation oferece suporte ao licenciamento de acesso aos seus dados por meio de. AWS Data Exchange Se você estiver interessado em licenciar seus dados do Lake Formation, consulte O que é o AWS Data Exchange no Guia do usuário do AWS Data Exchange .

Introdução ao Lake Formation

Recomendamos que você inicie por estas seções: