本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
管理标准操作程序
标准操作流程(SOP)是一套规范性步骤,旨在在出现中断或警报时有效地恢复应用程序。对您的 SOP 进行提前构建、测试和衡量,以确保在出现运行中断时及时恢复。
根据您的应用程序组件, AWS Resilience Hub 建议您应准备的 SOP。 AWS Resilience Hub 与 Systems Manager 合作,通过提供大量可用作这些 SOP 基础的 SSM 文档,自动执行 SOP 的步骤。
例如, AWS Resilience Hub 可能会根据现有的 SSM 自动化文档推荐用于添加磁盘空间的 SOP。要运行此 SSM 文档,您需要具有正确权限的特定 IAM 角色。 AWS Resilience Hub 在您的应用程序中创建元数据,指示在磁盘不足的情况下要运行哪个 SSM 自动化文档,以及需要哪个 IAM 角色才能运行该 SSM 文档。然后将此元数据保存在 SSM 参数中。
除了配置 SSM 自动化之外,最好的做法是通过 AWS FIS 实验对其进行测试。因此, AWS Resilience Hub 还提供了一个名为 SSM 自动化文档的 AWS FIS 实验,通过这种方式,您可以主动测试您的应用程序,以确保您创建的 SOP 能完成预期的工作。
AWS Resilience Hub 以 AWS CloudFormation 模板的形式提供其建议,您可以将其添加到应用程序代码库中。此模板提供:
运行 SOP 所需权限的 IAM 角色。
您可以用来测试 SOP 的 AWS FIS 实验。
一个包含应用程序元数据的 SSM 参数,指出哪个 SSM 文档和何种 IAM 角色将作为 SOP 运行,以及在哪个资源上运行。例如:
$(DocumentName) for SOP $(HandleCrisisA) on $(ResourceA)
。
创建 SOP 可能需要反复试验。对您的应用程序进行弹性评估并根据 AWS Resilience Hub 建议生成 AWS CloudFormation 模板是一个良好的开端。使用 AWS CloudFormation 模板生成 AWS CloudFormation 堆栈,然后在 SOP 中使用 SSM 参数及其默认值。运行 SOP,以查看需要进行哪些改进。
由于所有应用程序都有不同的要求,因此 AWS Resilience Hub 提供的默认 SSM 文档列表不足以满足您的所有需求。但是,您可以复制默认 SSM 文档,并以它们为依据创建专为您的应用程序量身定制的自定义文档。您还可以创建自己的全新 SSM 文档。如果您创建自己的 SSM 文档而不是修改默认值,则必须将它们与 SSM 参数相关联,这样在 SOP 运行时就会调用正确的 SSM 文档。
通过创建必要的 SSM 文档并根据需要更新参数和文档之间的关联,从而最终确定 SOP 后,请将 SSM 文档直接添加到您的代码库中,并在库中进行任何后续更改或自定义。这样,每次部署应用程序时,您也将部署最多的 up-to-date SOP。