本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
REL13-BP01 定義停機時間和資料遺失的復原目標
工作負載具有復原時間目標 (RTO) 和復原點目標 (RPO)。
復原時間目標 (RTO) 是服務中斷和服務還原之間的可接受延遲上限。這會決定可接受的服務無法使用之時間長度。
復原點目標 (RPO) 是自上次資料復原點以來可接受的時間上限。這會決定最後一個復原點與服務中斷之間可接受的資料遺失。
RTO 和 RPO值是為您的工作負載選擇適當的災難復原 (DR) 策略時的重要考量。這些目標由業務決定,然後由技術團隊用於選擇和實作 DR 策略。
預期成果:
每個工作負載都有指派的 RTO和 RPO,根據業務影響定義。工作負載會指派給預先定義的 層,定義服務可用性和可接受的資料遺失,並具有關聯的 RTO和 RPO。如果這種分層不可行,那麼可以為每個工作負載進行定制分配,以便稍後建立分層。RTO 和 RPO 是為工作負載選擇災難復原策略實作的主要考量之一。挑選 DR 策略的其他考量是成本限制、工作負載相依性和操作需求。
對於 RTO,請根據中斷持續時間了解影響。它是線性的,還是有非線性影響?(例如,四個小時後,將生產線關閉,直到下一個班次開始)。
災難復原矩陣 (如下所示) 可協助您了解工作負載關鍵性與復原目標之間的關聯性。(請注意,X 軸和 Y 軸的實際值應根據您的組織需求來自訂)。
常見的反模式:
-
沒有定義的復原目標。
-
選擇任意復原目標。
-
選擇過於寬鬆且不符合業務目標的復原目標。
-
不了解停機和資料遺失的影響。
-
選取不切實際的復原目標,例如零復原時間和零資料損失,這對於您的工作負載組態而言可能無法實現。
-
選擇比實際業務目標更嚴格的復原目標。這會強制進行比工作負載所需更昂貴和更複雜的 DR 實作。
-
選取與相依工作負載不相容的復原目標。
-
您的復原目標不會考慮法規遵循要求。
-
RTO 並為工作負載RPO定義,但從未測試過。
建立此最佳實務的優勢:需以時間和資料損失的復原目標來引導 DR 實作。
未建立此最佳實務時的曝險等級:高
實作指引
對於指定的工作負載,您必須了解停機和資料遺失對業務造成的影響。停機時間或資料遺失越大,影響通常也會越大,但是這種增長形式可能會因工作負載類型而有所不同。例如,您可能會容忍影響很小的一小時停機,但是在此之後,影響很快就會上升。對業務的影響表現為多種形式,包括貨幣成本 (例如收入損失)、客戶信任 (以及對聲譽的影響)、營運問題 (例如缺少薪資單或生產力下降) 以及監管風險。使用下列步驟了解這些影響,並RPO為您的工作負載設定 RTO 和 。
實作步驟
-
確定此工作負載的業務利益相關者,並與他們互動以實作這些步驟。工作負載的復原目標是一項業務決策。然後,技術團隊與業務利益相關者合作,使用這些目標來選擇 DR 策略。
注意
對於步驟 2 和 3,您可以使用 實作工作表。
-
透過回答以下問題來收集必要的資訊以做出決定。
-
對於組織中的工作負載影響,您是否有關鍵性類別或層級?
-
如果有,請將此工作負載指派到某個類別
-
如果沒有,請建立這些類別。建立五個或更少的類別,並調整每個類別的復原時間點目標範圍。範例類別包括:嚴重、高、中、低。若要了解工作負載如何映射至類別,請考慮工作負載是關鍵任務、重要業務還是非業務驅動。
-
RPO 根據類別設定工作負載 RTO和 。始終選擇比輸入此步驟計算的原始值更嚴格的類別 (低於 RTO和 RPO)。如果這會導致值發生不合適的大幅變更,請考慮建立新類別。
-
-
根據這些答案,將 RTO和 RPO值指派給工作負載。這可以直接完成,也可以透過將工作負載指派給預先定義的服務層來完成。
-
將此工作負載的災難復原計劃 (DRP) 記錄在工作負載團隊和利益相關者可存取的位置,這是組織業務連續性計劃 (BCP) 的一部分
-
記錄 RTO和 RPO,以及用於判斷這些值的資訊。包括用於評估工作負載對業務的影響的策略
-
除了記錄其他指標,RTORPO您是否正在追蹤或計劃追蹤災難復原目標
-
當您建立 DR 策略和執行手冊的詳細資訊時,將這些詳細資訊新增至此計畫。
-
-
透過查閱矩陣中的工作負載關鍵性,如圖 15,就可以開始建立為組織定義的預先定義服務層級。
-
根據 實作 DR 策略 (或 DR 策略的概念驗證) 之後REL13-BP02 使用定義的復原策略來滿足復原目標,請測試此策略以判斷實際工作負載 RTC(復原時間能力) 和 RPC(復原點能力)。如果這些不符合目標復原目的,則可以與您的業務利益相關者合作以調整這些目標,或者對 DR 策略進行變更以實現目標。
主要問題
-
在對業務造成嚴重影響之前,工作負載可以停止的最長時間是多少
-
如果工作負載中斷,請確定每分鐘對業務的貨幣成本 (直接財務影響)。
-
考慮到影響並不總是線性的。影響起初可能會受到限制,然後在臨界點後迅速增加。
-
-
在對業務造成嚴重影響之前,可能遺失的最大資料量是多少
-
針對最關鍵的資料存放區考慮此值。確定其他資料存放區的各自關鍵性。
-
如果遺失工作負載資料,是否可以重新建立? 如果此操作比備份和還原更容易操作,則RPO根據用於重新建立工作負載資料的來源資料的重要性進行選擇。
-
-
此工作負載所依賴的工作負載 (下游) 或者依賴此工作負載的工作負載 (上游) 的復原目標和可用性期望為何?
-
選擇允許此工作負載以符合上游相依性需求的復原目標
-
根據下游相依性的復原能力,選擇可實現的復原目標。可以排除非關鍵的下游相依性 (您可以「解決」的相依性)。或者,您也可以在必要時使用重要的下游相依性來改善其復原能力。
-
其他問題
考慮以下問題,及其如何套用於此工作負載:
-
您是否有不同的 RTO,RPO取決於中斷類型 (區域與 AZ 等)?
-
當您的 RTO/RPO 可能變更時,是否有特定的時間 (季節性、銷售事件、產品推出)? 如果是這樣,不同的測量和時間邊界是什麼?
-
如果工作負載中斷,有多少客戶會受到影響?
-
如果工作負載中斷,對聲譽有什麼影響?
-
如果工作負載中斷,可能會產生哪些其他營運影響? 例如,如果電子郵件系統無法使用,或薪資系統無法提交交易,對員工生產力的影響。
-
工作負載RTO和 如何與業務單位和組織 DR 策略RPO保持一致?
-
提供服務是否有內部合約義務? 未滿足這些要求是否會受到懲罰?
-
資料的法規或合規限制是什麼?
實作工作表
您可以將此工作表用於實行步驟 2 和 3。可以調整此工作表以滿足您的特定需求,例如新增其他問題。
實作計畫的工作量:低
資源
相關的最佳實務:
相關文件:
相關影片: