Couches de données recommandées

Si vous travaillez avec des données non sensibles, telles que des informations non personnellement identifiables (PII), nous vous recommandons d'utiliser au moins trois couches de données différentes dans un lac de données sur leAWS Cloud.

Toutefois, il se peut que vous ayez besoin de couches supplémentaires en fonction de la complexité des données et des cas d'utilisation. Par exemple, si vous travaillez avec des données sensibles (par exemple, des données personnelles), nous vous recommandons d'utiliser un compartiment Amazon Simple Storage Service (Amazon S3) supplémentaire comme landing zone, puis de masquer les données avant de les déplacer dans la couche de données brutes. Pour plus d'informations à ce sujet, consultez laGestion des données sensibles section de ce guide.

Chaque couche de données doit avoir un compartiment S3 individuel ; le tableau suivant décrit les couches de données recommandées :

Nom de la couche de données	Description	Exemple de stratégie en matière de cycle de vie
Brut	Contient les données brutes non traitées et constitue la couche dans laquelle les données sont ingérées dans le lac de données. Si possible, vous devez conserver le format de fichier d'origine et activer le contrôle de version dans le compartiment S3.	Au bout d'un an, déplacez les fichiers vers la classe de stockage Amazon S3 à accès peu fréquent (IA). Après deux ans passés dans Amazon S3 IA, archivez-les dans Amazon S3 Glacier.
Étape	Contient des données intermédiaires traitées optimisées pour la consommation (par exemple, des fichiers bruts convertis au format CSV vers Apache Parquet ou des transformations de données). UneAWS Glue tâche lit les fichiers à partir de la couche brute et valide les données. LaAWS Glue tâche stocke ensuite les données dans un fichier au format Apache Parquet et les métadonnées sont stockées dans une table du catalogue deAWS Glue données.	Les données peuvent être supprimées après une période définie ou selon les exigences de votre organisation. Certains dérivés de données (par exemple, une transformation Apache Avro au format JSON d'origine) peuvent être supprimés du lac de données après un laps de temps plus court (par exemple, après 90 jours).
Analyse	Contient les données agrégées pour vos cas d'utilisation spécifiques dans un format prêt à être utilisé (par exemple, Apache Parquet).	Les données peuvent être déplacées vers Amazon S3 IA, puis supprimées après une période définie ou selon les exigences de votre organisation.

Note

Vous devez évaluer toutes les stratégies de politique de cycle de vie recommandées par rapport aux besoins de votre entreprise, aux exigences réglementaires, aux modèles de requêtes et aux considérations de coût.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Introduction

Nommer les compartiments S3 dans vos couches de données