本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Resilience Hub 概念
这些概念可以帮助您更好地了解帮助提高应用程序弹性和防止应用程序中断的方法。 AWS Resilience Hub
故障恢复能力
在指定的时间范围内保持可用性并从软件和操作中断中恢复的能力。
恢复点目标(RPO)滞后
自上一个数据恢复点以来可接受的最长时间。这决定了从上一个恢复点到服务中断之间可接受的数据丢失情况。
恢复时间目标(RTO)
RTO 是指服务中断和服务恢复之间可接受的最大延迟。这决定了当服务不可用时,什么时间段被视为可接受的时间窗口。
估计工作负载恢复时间目标
估计工作负载恢复时间目标(估计工作负载 RTO)是根据导入的应用程序定义估计您的应用程序需要达到的 RTO,然后运行评测。
估计工作负载恢复点目标
估计工作负载恢复点目标(估计工作负载 RPO)是根据导入的应用程序定义估计您的应用程序要达到的 RPO,然后进行评测。
应用程序
AWS Resilience Hub 应用程序是 AWS 受支持资源的集合,这些资源会受到持续监控和评估,以管理其弹性状态。
应用程序组件
一组作为一个单元起作用和失败的相关 AWS 资源。例如,如果您有主数据库和副本数据库,则两个数据库都属于同一个应用程序组件 (AppComponent)。
AWS Resilience Hub 决定哪些 AWS 资源可以属于哪种类型 AppComponent。例如,DBInstance
可以属于 AWS::ResilienceHub::DatabaseAppComponent
但不属于 AWS::ResilienceHub::ComputeAppComponent
。
应用程序合规性状态
AWS Resilience Hub 报告应用程序的以下合规性状态类型。
策略已满足
据估计,该应用程序将满足策略中定义的 RTO 和 RPO 目标。其所有组件均符合既定的策略目标。例如,您为跨 AWS 区域的中断选择了 24 小时的 RTO 和 RPO 目标。 AWS Resilience Hub 可以看到您的备份已复制到您的备用区域。您仍然需要保持从备份标准操作程序(SOP)中恢复的状态,并对其进行测试和计时。这包含在操作建议中,也是您的整体弹性分数的一部分。
违反策略
据估计,应用程序无法达到策略中定义的 RTO 和 RPO 目标。其中一个或多个 AppComponents 不符合政策目标。例如,您为跨 AWS 区域的中断选择了 24 小时的 RTO 和 RPO 目标,但您的数据库配置不包括任何跨区域恢复方法,例如全球复制和备份副本。
未评测
该应用程序需要进行评测。目前尚未对其进行评测或跟踪。
检测到的更改
该应用程序有一个新的已发布版本,但尚未经过评测。
偏差检测
AWS Resilience Hub 在为您的应用程序运行评估时运行偏差通知,以检查 AppComponent 配置中的更改是否影响了应用程序的合规性状态。此外,它还会检查和检测应用程序输入源中资源的添加或删除等更改,并发出相关通知。为了进行比较, AWS Resilience Hub 使用之前的评估,其中应用程序组件符合策略。 AWS Resilience Hub 检测到以下类型的漂移:
-
应用程序策略偏差 — 这种漂移类型标识了 AppComponents 所有在上一次评估中符合策略但在当前评估中未遵守的内容。
-
应用程序资源漂移-此漂移类型标识当前应用程序版本中所有漂移的资源。
弹性评测
AWS Resilience Hub 使用差距和潜在补救措施清单来衡量选定政策在灾难中恢复和延续的有效性。它评估每个应用程序组件或应用程序与策略的合规性状态。该报告包括成本优化建议和对潜在问题的引用。
弹性得分
AWS Resilience Hub 生成一个分数,表明您的应用程序在多大程度上遵循了我们的建议,以满足应用程序的弹性策略、警报、标准操作程序 (SOPs) 和测试。
中断类型
AWS Resilience Hub 帮助您评估针对以下类型的停机的弹性:
应用程序
基础设施运行良好,但应用程序或软件堆栈无法按需运行。这可能发生在部署新代码、更改配置、数据损坏或下游依赖项发生故障后。
云基础设施
由于中断,云基础设施无法按预期运行。可能由于一个或多个组件出现本地错误而发生中断。在大多数情况下,这种类型的中断可以通过重新启动、回收或重新加载故障组件来解决。
云基础设施 AZ 中断
一个或多个可用区不可用。可通过切换到不同的可用区来解决此类中断。
云基础设施区域事件
一个或多个区域不可用。这种类型的事件可以通过切换到不同的 AWS 区域来解决。
AWS FIS 实验
AWS Resilience Hub 建议使用 AWS FIS 操作进行实验,以验证应用程序在不同类型的中断情况下的弹性。这些中断包括应用程序、基础架构、可用区 (AZ) 或应用程序组件 AWS 区域 事件。
这些实验可让您执行以下操作:
-
注入故障。
-
验证警报是否可以检测到中断。
-
验证恢复程序或标准操作程序 (SOPs) 是否正常运行,以使应用程序从停机中恢复。
用于 SOPs 测量估计的工作负载 RTO 和估计的工作负载 RPO 的测试。您可以测试不同的应用程序配置,并衡量输出 RTO 和 RPO 是否符合策略中定义的目标。
SOP
标准操作程序(SOP)是一组规范性步骤,旨在在发生中断或警报时有效地恢复应用程序。根据应用程序评估, AWS Resilience Hub 建议在 SOPs 中断之前进行一组准备、测试和测量,以确保及时恢复。 SOPs