設計高可用性的分散式系統 AWS - 可用性和超越:了解和提高分佈式系統的彈性 AWS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設計高可用性的分散式系統 AWS

前面的章節主要是關於工作負載的理論可用性以及它們可以實現的目標。它們是建置分散式系統時要牢記的重要概念集。它們將有助於告知您的依賴關係選擇過程以及如何實現冗餘。

我們也研究了MTTD、MTTR與MTBF可用性之間的關係。本節將根據以前的理論介紹實用指導。簡而言之,高可用性的工程工作負載旨在增加MTBF和減少MTTD. MTTR

儘管消除所有失敗將是理想的,但這並不現實。在具有深層堆疊相依性的大型分散式系統中,將會發生故障。「一切都失敗了所有的時間」(見沃納·沃格爾斯,CTO, Amazon.com, 10 從 Amazon Web Services 多年的經驗教訓。) 和「你不能立法針對失敗 [所以] 專注於快速檢測和響應。」 (請參閱 Amazon EC2 團隊創始成員 Chris Pinkham,為故障ARC335設計:在上構建彈性系統) AWS

這意味著您通常無法控制是否發生故障。您可以控制的是檢測故障並對其執行某些操作的速度。因此,雖然增加仍然MTBF是高可用性的重要組成部分,但客戶在其控制範圍內最重要的變化是減少MTTD和MTTR。