本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設計原則
雲端可靠性有五個基本的設計原則:
-
自動從失敗中復原:透過監控關鍵效能指標 (KPIs) 的工作負載,您可以在違反閾值時啟動自動化。這些KPIs應該是商業價值的指標,而不是服務操作的技術層面。如此一來,即可自動通知和追蹤失敗,以及自動化可解決或修復失敗的復原程序。藉助更複雜的自動化功能,您可以在發生失敗前進行預測和修補。
-
測試復原程序:在內部部署環境中,經常執行測試以證明工作負載可在特定情況下正常工作。測試通常不可用於驗證復原策略。在雲端,您可測試工作負載會發生哪些失敗情境,同時可驗證復原程序。您可使用自動化來模擬不同的失敗情境或重新建立會導致之前失敗的情境。此方法會在實際的失敗情境發生前公開您可以測試和修正的失敗路徑,從而降低風險。
-
水平擴展,以增加彙總工作負載的可用性:使用多個小資源取代一個大資源,以降低整體工作負載上發生單一失敗時造成的影響。將請求分散到多個較小的資源,以確認其不會有共同的失敗點。
-
停止猜測容量:內部部署工作負載失敗的一個常見原因是資源飽和,即當對工作負載的需求超出該工作負載的容量時發生的情況 (這通常為阻斷服務攻擊的目標)。在雲端,您可以監控需求和工作負載利用率,並自動新增或刪除資源,以保持可滿足需求的更有效水平,而不會過度佈建或佈建不足。仍然存在限制,但是某些配額可以控制,而其他限制則可管理 (請參閱管理服務配額和限制)。
-
透過自動化管理變更:應透過自動化來執行對基礎架構的變更。必須管理的變更包括之後可以追蹤和審查的自動化變更。