推荐的数据层 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

推荐的数据层

如果您处理非敏感数据,例如非个人身份信息 (PII) 数据,我们建议您在的数据湖中使用至少三个不同的数据层AWS Cloud。

但是,根据数据的复杂性和用例,您可能需要额外的图层。例如,如果您处理敏感数据(例如 PII 数据),我们建议您使用额外的 Amazon Simple Storage Service (Amazon S3) 存储桶作为landing zone,然后在数据移入原始数据层之前对其进行屏蔽。有关此内容的更多信息,请参加本指南处理敏感数据章节。

每个数据层都必须有一个单独的 S3 存储桶;下表描述了我们推荐的数据层:

数据层名称 描述 生命周期策略示例
Raw

包含未处理的原始数据,是将数据引入数据湖的层。

如果可能,您应保留原始文件格式并在 S3 存储桶中启用版本控制。

一年后,将文件移入 Amazon S3 不频繁访问 (IA) 存储类别。在 Amazon S3 IA 工作两年后,将它们存档到 Amazon S3 Glacier
阶段

包含针对使用进行了优化的中间处理数据(例如 CSV 到 Apache Parquet 转换的原始文件或数据转换)。

AWS Glue作业从原始层读取文件并验证数据。然后,AWS Glue作业将数据存储在 Apache Parquet 格式的文件中,元数据存储在AWS Glue数据目录的表中。

可以在定义的时间段后删除数据,也可以根据组织的要求删除数据。

一些数据导数(例如,原始 JSON 格式的 Apache Avro 转换)可以在较短的时间后(例如,90 天后)从数据湖中删除。

分析 以可供消费的格式(例如 Apache Parquet)包含特定用例的汇总数据。 可以将数据移动到 Amazon S3 IA,然后在定义的时间段后或根据贵组织的要求将其删除。
注意

您必须根据组织需求、监管要求、查询模式和成本考虑因素评估所有推荐的生命周期策略策略。