韧性与可靠性的组件 - 可靠性支柱

韧性与可靠性的组件

云中的工作负载可靠性取决于多个因素,其中最主要的要属韧性

  • 韧性是指工作负载从基础设施故障或服务中断中恢复,并能动态获取计算资源来满足需求以及减少中断(如错误配置或暂时性网络问题)的能力。

会对工作负载可靠性产生影响的其他因素还有:

  • 卓越运营,其中包括变更自动化,使用行动手册对故障做出响应,以及通过运营准备情况审查(ORR)确保应用程序已经为生产运营做好准备。

  • 安全性,其中包括杜绝恶意行为者破坏数据或基础设施,避免影响可用性。例如,使用加密备份来确保数据安全。

  • 性能效率,其中包括通过设计在最大程度上提高工作负载的请求速率,并且将延迟最小化。

  • 成本优化,其中包括权衡取舍,如确定要在 EC2 实例上投入更多以实现静态稳定性,还是在需要更大容量时依赖自动扩展。

韧性是本白皮书的主要关注点。

其他四个因素也很重要,我们将在讨论 AWS Well-Architected Framework 的相应支柱时加以介绍。这里的许多最佳实践也解决了可靠性在这些方面的问题,但重点是韧性。