Definindo nomes de bucket e caminho do S3 para camadas de data lake naAWS nuvem

Isabelle Imacseng, Samuel Schmidt e Andrés Cantor, Amazon Web Services (AWS)

Novembro de 2021 (histórico do documento)

Este guia ajuda você a criar um padrão de nomenclatura consistente para buckets e caminhos do Amazon Simple Storage Service (Amazon S3) em data lakes hospedados na Amazon Web Services (AWS) Cloud. O padrão de nomenclatura do guia para buckets e caminhos do S3 ajuda você a melhorar a governança e a observabilidade em seus lagos de dados, identificar custos por camada de dados e fornecer uma abordagem para funções e políticas de nomeaçãoAWS Identity and Access Management (IAM).Conta da AWS

Recomendamos que você use pelo menos três camadas de dados em seus lagos de dados e que cada camada use um bucket S3 separado. No entanto, alguns casos de uso podem exigir um bucket e uma camada de dados adicionais do S3, dependendo dos tipos de dados que você gera e armazena. Por exemplo, se você armazenar dados confidenciais, recomendamos usar uma camada de dados landing zone aterrissagem e um bucket S3 separado. A lista a seguir descreve as três camadas de dados recomendadas para seu data lake:

Camada de dados brutos — contém dados brutos e é a camada na qual os dados são inicialmente ingeridos. Se possível, recomendamos que você mantenha o formato do arquivo original e ative o controle de versão no bucket do S3.
Camada de dados de palco — contém dados intermediários processados que são otimizados para consumo (por exemplo, arquivos brutos convertidos de CSV para Apache Parquet ou transformações de dados). UmAWS Glue trabalho lê os arquivos da camada bruta e valida os dados. Em seguida, oAWS Glue trabalho armazena os dados em um arquivo no formato Apache Parquet e os metadados são armazenados em uma tabela no CatálogoAWS Glue de Dados.
Camada de dados analíticos — contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo (por exemplo, Apache Parquet).

As recomendações deste guia são baseadas na experiência dos autores na implementação de lagos de dados com a estrutura de data lake sem servidor (SDLF) e são destinadas a arquitetos de dados, engenheiros de dados ou arquitetos de soluções que desejam configurar um data lake noNuvem AWS. No entanto, você deve se certificar de adaptar a abordagem deste guia para atender às políticas e aos requisitos da sua organização.

O guia contém as seguintes seções:

Resultados comerciais direcionados

Você deve esperar os cinco resultados a seguir depois de implementar um padrão de nomenclatura para buckets e caminhos do S3 em data lakes naAWS nuvem:

Governança e observabilidade aprimoradas em seu data lake.
Maior visibilidade de seus custos gerais para indivíduosContas da AWS usando o ID deAWS conta relevante no nome do bucket do S3 e para camadas de dados usando etiquetas de alocação de custos para os buckets do S3.
Armazenamento de dados mais econômico usando políticas de controle de versão e ciclo de vida baseadas em caminhos baseados em camadas.
Atenda aos requisitos de segurança para mascaramento e criptografia de dados.
Simplifique o rastreamento da fonte de dados aprimorando a visibilidade do desenvolvedor emRegião da AWS relação ao armazenamentoConta da AWS de dados subjacente.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Camadas de dados recomendadas