本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
REL13-BP04 管理 DR 站點或區域的組態偏移
若要執行成功的災難復原 (DR) 程序,您的工作負載必須能夠及時恢復正常運作,而且在 DR 環境上線後,不會發生相關的功能喪失或資料損失。若要實現此目標,請務必在 DR 環境與主要環境之間維護一致的基礎設施、資料和組態。
預期成果:您的災難復原站點的組態和資料與主要站點相同,這有助於在需要時快速且完整的復原。
常見的反模式:
-
當主要位置發生變更時,您未能更新復原位置,這會導致組態過時,進而阻礙復原工作。
-
您未考量潛在的限制,例如,主要和復原位置之間的服務差異,這可能會導致容錯移轉期間發生非預期的失敗。
-
您依賴手動程序來更新和同步 DR 環境,這會增加人為錯誤和不一致的風險。
-
您未能偵測到組態偏移,這會導致在事件發生之前對 DR 站點整備度產生錯誤的認知。
建立此最佳實務的優勢:DR 環境與主要環境之間的一致性可大幅改善事件發生後成功復原的可能性,並降低復原程序失敗的風險。
未建立此最佳實務時的曝險等級:高
實作指引
一套完整的組態管理和容錯移轉整備方法,可協助您確認 DR 站點持續更新,並準備好在主要站點故障時接管。
若要實現主要與災難復原 (DR) 環境之間的一致性,請確定您的交付管道會將應用程式同時分配到主要和 DR 網站。經過適當的評估期 (也稱為交錯部署) 之後,將變更推展至 DR 站點,以偵測主要站點的問題,並在問題擴大之前停止部署。實作監控來偵測組態偏移,並追蹤整個環境的變更和合規性。在 DR 站點中執行自動修復,使其完全一致,並準備好在事件發生時接管。
實作步驟
-
確定 DR 區域包含成功執行 DR 計畫所需的 AWS 服務和功能。
-
使用基礎設施即程式碼 (IaC)。保持實際執行基礎設施和應用程式組態範本的準確性,並定期將其套用至災難復原環境。AWS CloudFormation
可偵測 CloudFormation 範本所指定內容與實際部署內容之間的偏移。 -
設定 CI/CD 管道,將應用程式和基礎設施更新部署到所有環境,包括主要和 DR 站點。CI/CD 解決方案 (例如 AWS CodePipeline
) 可以自動化部署程序,進而降低組態偏移的風險。 -
在主要環境和 DR 環境之間交錯部署。此方法允許一開始在主要環境中部署和測試更新,這樣會隔離主要站點中的問題,避免後續傳播到 DR 站點。此方法可防止同時將瑕疵推送至實際執行環境和 DR 站點,並維護 DR 環境的完整性。
-
同時主要和 DR 環境中持續監控資源組態。AWS Config
這類解決方案可協助強制執行組態合規性並偵測偏移,這有助於在環境之間維持組態的一致性。 -
實作警示機制,以追蹤任何組態偏移或資料複寫中斷或延遲的情形,並發出通知。
-
自動修復偵測到的組態偏移。
-
排程定期稽核和合規檢查,以確認主要和 DR 組態之間持續保持一致。定期審查可協助您保持符合既定規則,並識別任何需要解決的差異。
-
檢查 AWS 佈建的容量、服務配額、限流限制是否不相符,以及組態和版本的差異。
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例: