REL09-BP01 识别并备份需要备份的所有数据或从源复制数据 - 可靠性支柱

REL09-BP01 识别并备份需要备份的所有数据或从源复制数据

了解并使用工作负载所用的数据服务和资源的备份功能。大多数服务提供了备份工作负载数据的功能。

期望结果:数据来源已确定,并根据重要性进行了分类。然后,根据 RPO 为数据恢复建立了策略。此策略涉及到备份这些数据来源,或者能够从其他来源复制数据。在出现数据丢失的情况下,所实施的策略可以在定义的 RPO 和 RTO 内实现数据的恢复或复制。

云成熟度阶段:基础

常见反模式:

  • 不了解工作负载的所有数据来源及其重要性。

  • 没有对关键数据来源进行备份。

  • 仅对部分数据来源进行备份,但没有考虑重要性标准。

  • 没有定义 RPO,或者备份频率无法满足 RPO。

  • 没有评估备份是否必需或者是否可以从其他来源复制数据。

建立此最佳实践的好处:确定需要备份的位置并实施某种机制来创建备份,或者具备从外部来源复制数据的能力,这样可以提高在停机期间还原和恢复数据的能力。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

所有 AWS 数据存储均提供备份功能。Amazon RDS 和 Amazon DynamoDB 等服务还额外地支持可实现时间点故障恢复(PITR)的自动备份,这使您可以将备份恢复到距当前时间不超过五分钟的任意时间点。许多 AWS 服务提供了将备份复制到其他 AWS 区域的功能。AWS Backup 工具向您提供了在不同 AWS 服务中集中实现自动化数据保护的能力。AWS Elastic Disaster Recovery 使您可以从本地、跨可用区或跨区域复制完整的服务器工作负载并保持连续数据保护,恢复点目标(RPO)以秒为单位。

Amazon S3 可用作自行管理数据来源和 AWS 托管数据来源的备份目标。Amazon EBS、Amazon RDS、和 Amazon DynamoDB 等 AWS 服务具有可用于创建备份的内置功能。此外,也可使用第三方备份软件。

可以使用 AWS Storage GatewayAWS DataSync 将本地数据备份到 AWS Cloud。Amazon S3 存储桶可用于在 AWS 中存储此数据。Amazon S3 提供多个存储层(例如 Amazon S3 Glacier 或 S3 Glacier Deep Archive),可用于降低数据存储的成本。

您可以从其他来源复制数据,以此来满足数据恢复需求。例如,Amazon ElastiCache 副本节点Amazon RDS 只读副本可用于在主来源丢失时复制数据。如果像这样的来源可用于满足恢复点目标(RPO)和恢复时间目标(RTO)要求,您可能不需要备份。在另一个例子中,如果使用 Amazon EMR,只要可以将数据从 Amazon S3 复制到 Amazon EMR 中,则可能不需要备份 HDFS 数据存储。

在选择备份策略时,请考虑恢复数据所用的时间。恢复数据所需的时间取决于备份的类型(在采用备份策略时)或数据复制机制的复杂性。此时间应该符合工作负载的 RTO。

实施步骤

  1. 确定工作负载的所有数据来源。数据可以存储在多种资源中,例如数据库文件系统日志记录系统对象存储。请参阅资源部分,查找有关存储数据的不同 AWS 服务的相关文档,以及这些服务提供的备份功能。

  2. 根据重要性对数据来源进行分类。对于工作负载,不同数据集具有不同的重要程度,因此对韧性具有不同的要求。例如,一些数据可能会非常重要,要求接近于零的 RPO,而另一些数据则不那么重要,可以承受较高的 RPO 和某种程度的数据丢失。与此类似,不同数据集也可能会有不同的 RTO 要求。

  3. 使用 AWS 或第三方服务来创建数据的备份AWS Backup 是一项托管服务,支持在 AWS 上创建各种数据来源的备份。AWS Elastic Disaster Recovery 处理到 AWS 区域的自动亚秒级数据复制。大多数 AWS 服务还具有原生的创建备份功能。AWS Marketplace 有许多解决方案同样提供了这些功能。请参阅下面所列的资源,了解有关如何从不同 AWS 服务创建数据备份的信息。

  4. 为没有备份的数据建立数据复制机制。您可能会出于各种原因,不对可从其他来源复制的数据进行备份。您可能会遇到一种情况,在需要时从来源复制数据的成本相比创建备份更低,因为可能会有与存储备份相关的成本。另一个例子是从备份进行还原的时间比从来源复制数据用时更长,使得备份不符合 RTO 要求。在此类情况下请做出权衡,并建立明确定义的流程,确定在需要进行恢复时如何从这些来源复制数据。例如,若从 Amazon S3 将数据加载到数据仓库(如 Amazon Redshift)或 MapReduce 集群(如 Amazon EMR),以便对此类数据进行分析,这就算是从其他来源复制数据的例子。只要此类分析的结果被存储在某位置或者可重现,您就不会因为数据仓库或 MapReduce 集群故障而承受数据丢失风险。其他可从数据来源复制数据的例子包括缓存(如 Amazon ElastiCache)或 RDS 只读副本。

  5. 制定备份数据的频率。创建数据来源的备份是一个定期执行的流程,其频率取决于 RPO。

实施计划的工作量级别:

资源

相关最佳实践:

REL13-BP01 定义停机和数据丢失的恢复目标

REL13-BP02 使用定义的恢复策略来实现恢复目标

相关文档:

相关视频:

相关示例: