SUS04-BP05 删除不需要或多余的数据
删除不需要或多余的数据,以最大程度地减少存储数据集所需的存储资源。
常见反模式:
-
复制可以轻松获取或重新创建的数据。
-
备份所有数据时不考虑其重要性。
-
只不定期地删除数据、操作事件时删除数据,或者根本不删除数据。
-
无论存储服务的持久性如何,都冗余地存储数据。
-
在没有任何业务理由的情况下启用 Amazon S3 版本控制。
建立此最佳实践的好处:删除不需要的数据可减少工作负载所需的存储大小和工作负载对环境的影响。
在未建立这种最佳实践的情况下暴露的风险等级:中
实施指导
请勿存储不需要的数据。自动删除不需要的数据。使用技术在文件和数据块级别进行重复数据删除。利用服务的本机数据复制和冗余功能。
实施步骤
-
评估是否可以通过使用 AWS Data Exchange
中的现有公开可用数据集,以及 AWS 上的开放数据 来避免存储数据。 -
使用可以在数据块和对象级别删除重复数据的机制。以下是有关如何删除 AWS 上的重复数据的一些示例:
Storage service Deduplication mechanism 使用 AWS Lake Formation FindMatches
通过新的 FindMatches ML 转换在数据集(包括没有标识符的数据集)中查找匹配的记录。 在 Amazon FSx for Windows 上启用重复数据删除。
快照是增量备份,这意味着只保存拍摄最新快照之后出现更改的设备上的数据块。
-
分析数据访问以识别不需要的数据。自动执行生命周期策略。利用本机服务功能(如 Amazon DynamoDB 生存时间、Amazon S3 生命周期或 Amazon CloudWatch 日志保留)进行删除。
-
使用 AWS 上的数据虚拟化功能在源头维护数据并避免数据重复。
-
使用可进行增量备份的备份技术。
-
利用 Amazon S3 的持久性和 Amazon EBS 的复制性来实现持久性目标,而不是使用自我管理技术 [如独立磁盘冗余阵列(RAID)]。
-
集中日志和跟踪数据,对相同的日志条目进行重复数据删除,并在需要时建立调整详细程度的机制。
-
仅在合理的情况下预填充缓存。
-
建立缓存监控和自动化以相应地调整缓存大小。
-
推送新版本的工作负载时,从对象存储和边缘缓存中删除过时的部署和资产。
资源
相关文档:
相关视频:
相关示例: