REL04-BP03 持续工作 - 可靠性支柱

REL04-BP03 持续工作

系统会在负载中存在剧烈快速更改时失败。例如,如果您的工作负载执行的一项运行状况检查监控着数千个服务器的运行状况,每次都应发送相同大小的有效负载(当前状态的完整快照)。无论是否有服务器或有多少服务器发生故障,运行状况检查系统都会持续工作,而不会有剧烈、快速的变动。

例如,如果运行状况检查系统正在监控 10 万台服务器,在通常较低的服务器故障率下,它的负载是正常的。但如果发生重大事件让一半的服务器运行状况不佳,则运行状况检查系统会因为尝试更新通知系统以及向其客户端传送状态而变得不堪重负。因此,运行状况检查系统每次都应发送当前状态的完整快照,10 万台服务器的运行状况状态(每个状态都用一位表示)仅占 12.5 KB 的有效负载。无论是没有服务器发生故障还是所有服务器都发生故障,运行状况检查系统都会持续工作,而大幅度骤变也不会威胁到系统的稳定性。这实际上就是 Amazon Route 53 处理对端点(例如 IP 地址)运行状况检查的方式,从而确定最终用户如何路由到这些端点。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

资源

相关文档:

相关视频: