Définition des noms de bucket et de chemin S3 pour les couches de lacs de données sur leAWS cloud

Isabelle Imacseng, Samuel Schmidt et Andrés Cantor, Amazon Web Services (AWS)

Novembre 2021 (historique du document)

Ce guide vous aide à créer une norme de dénomination cohérente pour les compartiments et chemins d'Amazon Simple Storage Service (Amazon S3) dans les lacs de données hébergés sur le cloud d'Amazon Web Services (AWS). La norme de dénomination du guide pour les compartiments et chemins S3 vous aide à améliorer la gouvernance et l'observabilité de vos lacs de données, à identifier les coûts par couche de données et fournit une approche pour la dénomination des rôles et des politiquesAWS Identity and Access Management (IAM).Compte AWS

Nous vous recommandons d'utiliser au moins trois couches de données dans vos lacs de données et de faire en sorte que chaque couche utilise un compartiment S3 distinct. Toutefois, certains cas d'utilisation peuvent nécessiter un compartiment S3 et une couche de données supplémentaires, en fonction des types de données que vous générez et stockez. Par exemple, si vous stockez des données sensibles, nous vous recommandons d'utiliser une couche de données de landing zone et un compartiment S3 distinct. La liste suivante décrit les trois couches de données recommandées pour votre lac de données :

Couche de données brutes : contient des données brutes et constitue la couche dans laquelle les données sont initialement ingérées. Si possible, nous vous recommandons de conserver le format de fichier d'origine et d'activer le contrôle de version dans le compartiment S3.
Couche de données Stage : contient des données intermédiaires traitées optimisées pour la consommation (par exemple, des fichiers bruts convertis au format CSV vers Apache Parquet ou des transformations de données). UneAWS Glue tâche lit les fichiers de la couche brute et valide les données. LaAWS Glue tâche stocke ensuite les données dans un fichier au format Apache Parquet et les métadonnées sont stockées dans une table du catalogue deAWS Glue données.
Couche de données analytiques : contient les données agrégées pour vos cas d'utilisation spécifiques dans un format prêt à être utilisé (par exemple, Apache Parquet).

Les recommandations de ce guide sont basées sur l'expérience des auteurs en matière de mise en œuvre de lacs de données avec le framework de lacs de données sans serveur (SDLF) et sont destinées aux architectes de données, aux ingénieurs de données ou aux architectes de solutions qui souhaitent configurer un lac de données sur leAWS Cloud. Cependant, vous devez vous assurer d'adapter l'approche de ce guide aux politiques et aux exigences de votre organisation.

Ce guide comprend les sections suivantes :

Résultats commerciaux ciblés

Vous devriez vous attendre aux cinq résultats suivants après avoir mis en œuvre une norme de dénomination pour les compartiments et les chemins S3 dans les lacs de données sur leAWS cloud :

Gouvernance et observabilité améliorées dans votre lac de données.
Visibilité accrue de vos coûts globaux pour chaque individu enComptes AWS utilisant l'identifiant deAWS compte correspondant dans le nom du compartiment S3 et pour les couches de données en utilisant des balises de répartition des coûts pour les compartiments S3.
Stockage des données plus rentable grâce au contrôle des versions basé sur les couches et à des politiques de cycle de vie basées sur les chemins.
Répondez aux exigences de sécurité relatives au masquage et au cryptage des données.
Simplifiez le suivi des sources de données en améliorant la visibilitéRégion AWS des développeurs sur le stockageCompte AWS de données sous-jacent.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Couches de données recommandées