SUS04-BP05 删除不需要或多余的数据
删除不需要或多余的数据,以最大程度地减少存储数据集所需的存储资源。
常见反模式:
-
复制可以轻松获取或重新创建的数据。
-
备份所有数据时不考虑其重要性。
-
只不定期地删除数据、操作事件时删除数据,或者根本不删除数据。
-
无论存储服务的持久性如何,都冗余地存储数据。
-
您在没有任何业务理由的情况下启用 Amazon S3 版本控制。
建立此最佳实践的好处:删除不需要的数据可以减少工作负载所需的存储大小和工作负载对环境的影响。
在未建立这种最佳实践的情况下暴露的风险等级:中
实施指导
当您移除不需要和冗余的数据集时,可以降低存储成本和环境足迹。这种做法还可以提高计算效率,因为计算资源只处理重要的数据,而不处理不需要的数据。自动删除不需要的数据。使用技术在文件和数据块级别进行重复数据删除。使用服务功能来实现原生数据复制和冗余。
实施步骤
-
评估公开数据集:评估是否可以通过使用 AWS Data Exchange
和 Open Data on AWS 中现有公开可用的数据集来避免存储数据。 -
删除重复数据:使用可以在数据块和对象级别删除重复数据的机制。以下是有关如何删除 AWS 上的重复数据的一些示例:
存储服务 重复数据删除机制 使用新的 FindMatches 机器学习转换,使用 AWS Lake Formation FindMatches
在数据集中查找匹配的记录(包括没有标识符的记录)。 使用 Amazon FSx for Windows 上的重复数据删除。
快照属于增量 备份,这意味着仅保存设备上在最新快照之后更改的数据块。
-
使用生命周期策略:使用生命周期策略来自动删除不需要的数据。使用原生服务功能(如 Amazon DynamoDB 生存时间、Amazon S3 生命周期或 Amazon CloudWatch log retention)进行删除。
-
使用数据虚拟化:使用 AWS 上的数据虚拟化功能在源头维护数据并避免数据重复。
-
使用增量备份:使用可进行增量备份的备份技术。
-
使用原生持久性:利用 Amazon S3 的持久性和 Amazon EBS 的复制来实现您的持久性目标,而不是使用自行管理的技术 [例如独立磁盘冗余阵列(RAID)]。
-
使用高效的日志记录:集中日志和跟踪数据,对相同的日志条目进行重复数据删除,并在需要时建立调整详细程度的机制。
-
使用高效的缓存:仅在合理的情况下预填充缓存。
-
建立缓存监控和自动化以相应地调整缓存大小。
-
移除旧的版本资产:推送新版本的工作负载时,从对象存储和边缘缓存中移除过时的部署和资产。
资源
相关文档:
相关视频:
相关示例: