REL01-BP06 確保目前配額與最大用量之間存在足夠的間隙,以適應容錯移轉 - 可靠性支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

REL01-BP06 確保目前配額與最大用量之間存在足夠的間隙,以適應容錯移轉

本文說明如何維護資源配額與使用量之間的空間,以及如何讓您的組織受益。在完成使用資源之後,使用量配額可能會繼續佔用該資源。這可能會導致資源失敗或無法存取。透過確認您的配額是否涵蓋無法存取資源及其替換項目的重疊,來防止資源失敗。計算此差距時,應考慮諸如網路失敗、可用區域失敗或區域失敗等案例。

預期成果:資源或資源可存取性中的小型或大型故障可涵蓋在目前的服務閾值內。已在資源規劃中考慮區域 (Zone) 失敗、網路失敗或甚至是區域 (Regional) 失敗。

常見的反模式:

  • 根據目前的需求設定服務配額,而不考慮容錯移轉案例。

  • 計算服務的尖峰配額時,未考慮靜態穩定性的主體。

  • 計算每個區域所需的配額總計時,未考慮可能有無法存取的資源。

  • 不考慮某些 AWS 服務的服務故障隔離界限及其潛在的異常使用模式。

建立此最佳實務的優勢:當服務中斷事件影響應用程式可用性時,請使用雲端來實作策略,以便從這些事件中復原。一個範例策略是建立額外的資源來取代無法存取的資源,以適應容錯移轉條件,而不會耗盡您的服務限制。

未建立此最佳實務時的曝險等級:

實作指引

評估配額限制時,請考慮由於某些降級而可能發生的容錯移轉案例。請考慮下列容錯移轉情況。

  • 已中斷或無法存取的 VPC。

  • 無法存取的子網路。

  • 影響資源可存取性的降級可用區域。

  • 聯網路由或輸入和輸出點遭到封鎖或變更。

  • 影響資源可存取性的降級區域。

  • 受區域或可用區域中的失敗所影響的資源子集。

容錯移轉的決策對於每個情況都是獨一無二的,因為業務影響有所不同。在決定容錯移轉應用程式或服務之前,先處理容錯移轉位置中的資源容量規劃和資源的配額。

檢閱每個服務的配額時,請考慮高於正常的活動峰值。這些峰值可能與由於聯網或權限而無法存取但仍處於活動狀態的的資源相關。未終止的作用中資源會計入服務配額限制。

實作步驟

  • 維持服務配額和最大用量之間的空間,以適應容錯移轉或可存取性的喪失。

  • 確定服務配額。說明典型的部署模式、可用性需求和使用量增長。

  • 視需要請求增加配額。預計配額增加請求的等待時間。

  • 確定您的可靠性需求 (也稱為「幾個 9」)。

  • 了解可能的故障案例,例如元件遺失、可用區域或區域。

  • 建立您的部署方法 (範例包括 Canary、藍/綠、紅/黑或滾動)。

  • 為當前配額限制新增適當的緩衝。範例緩衝為 15%。

  • 適當時包含靜態穩定性的計算 (區域 (Zonal) 和區域 (Regional))。

  • 規劃使用量增長並監控使用量趨勢。

  • 考慮最關鍵工作負載的靜態穩定性影響。評估符合所有區域和可用區域中靜態穩定系統的資源。

  • 考慮使用隨需容量保留,在任何容錯移轉之前排程容量。這是針對關鍵業務排程而實作的有用策略,可以降低在容錯移轉期間取得正確數量和資源類型的潛在風險。

資源

相關的最佳實務:

相關文件:

相關影片:

相關工具: