常见的缓解策略

首先，请考虑使用预防性缓解措施来防止故障模式影响用户情景。然后你应该考虑纠正性的缓解措施。纠正性缓解措施可帮助系统自我修复或适应不断变化的条件。以下是每个故障类别的常见缓解措施列表，这些缓解措施与弹性属性一致。

失败类别	所需的弹性特性	缓解措施
单点故障 (SPOFs)	冗余和容错	实现冗余 ——例如，通过使用 Elastic Load Balancing (ELB) 背后的多个 EC2 实例。移除对AWS 全局服务控制平面的依赖关系，只依赖于全局服务数据平面。当资源不可用时，使用优雅降级，这样您的系统就可以静态稳定到单点故障。
负荷过大	足够的容量	关键的缓解策略包括速率限制、减负和工作优先级划分、持续工作、指数级退避和重试时抖动或根本不重试、控制较小的服务、管理队列深度、自动扩展、避免冷缓存和断路器。您还应该考虑自己的容量计划，并考虑未来可能达到的容量和扩展限制，这两者都与 AWS 资源和系统内的限制有关。
延迟过长	及时输出	实现适当配置的超时或自适应超时（根据当前和预测的延迟条件更改超时值，以允许慢速依赖项取得进展，而不是放弃缓慢的请求）。通过抖动、对冲、在本地环境连接到云服务时使用多路径 TCP 等技术实现指数级退避和重试，在特定路由上遇到延迟，使用与松散耦合系统的异步交互、缓存和不浪费工作。
配置错误和错误	正确输出	捕捉软件中可重复的功能错误的主要方法是通过静态分析、单元测试、集成测试、回归测试、负载测试和弹性测试等机制进行严格测试。实施基础设施即代码 (IaC)、持续集成和持续交付 (CI/CD) 自动化等策略，以帮助缓解配置错误的威胁。使用部署技术，例如单箱、金丝雀部署、与故障隔离边界一致的部分部署或蓝/绿部署，以减少错误配置和错误。
共同的命运	故障隔离	在您的系统中实现容错能力，并使用逻辑和物理故障隔离边界，例如多个计算或容器集群、多个 AWS 账户、多个 AWS Identity and Access Management (IAM) 委托人、多个可用区，可能还有多个 AWS 区域。基于单元的架构和随机分片等技术也可以改善故障隔离。考虑松散耦合和优雅退化等模式，以防止级联故障。当你优先考虑用户故事时，你还可以使用该优先级来区分对主要业务功能至关重要的用户故事和可以优雅降级的用户故事。例如，在电子商务网站中，您不希望网站上的促销小工具受到损害，从而影响处理新订单的能力。

尽管其中一些缓解措施只需很少的精力即可实施，但其他缓解措施（例如采用基于单元的架构以实现可预测的故障隔离和最大限度地减少共同命运故障）可能需要重新设计整个工作负载，而不仅仅是特定用户故事的组成部分。如前所述，重要的是要权衡故障模式的可能性和影响，以及为缓解故障模式所做的权衡取舍。

除了适用于每种故障模式类别的缓解技术外，您还应该考虑恢复用户情景或整个系统所需的缓解措施。例如，故障可能会暂停工作流程并阻止将数据写入预定目的地。在这种情况下，您可能需要操作工具来重新推动工作流程或手动修复数据。您可能还需要在工作负载中构建检查点机制，以帮助防止在发生故障时丢失数据。或者，你可能需要建立一根 andon cord 来暂停工作流程并停止接受新工作以防止进一步的伤害。在这些情况下，您应该考虑所需的操作工具和护栏。

最后，你应该始终假设人类在制定缓解策略时会犯错误。尽管现代 DevOps 实践试图实现操作自动化，但由于各种原因，人类仍然必须与您的工作负载进行交互。不正确的人为操作可能会导致任何 SEES 类别的故障，例如在维护期间移除太多节点并导致过载，或者错误地设置了功能标志。这些情况确实是预防性护栏的失败。根本原因分析永远不应该以 “人类犯了错误” 的结论而告终。相反，它应该从一开始就解决可能出错的原因。因此，您的缓解策略应考虑人类操作员如何与工作负载组件进行交互，以及如何通过安全护栏防止或最大限度地减少人为操作员错误造成的影响。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

故障模式可观察性

持续改进