REL13-BP01 定義停機時間和資料遺失的復原目標 - 可靠性支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

REL13-BP01 定義停機時間和資料遺失的復原目標

工作負載具有復原時間目標 (RTO) 和復原點目標 (RPO)。

復原時間目標 (RTO) 是服務中斷和服務還原之間的可接受延遲上限。這會決定可接受的服務無法使用之時間長度。

復原點目標 (RPO) 是自上次資料復原點以來可接受的時間上限。這會決定最後一個復原點與服務中斷之間可接受的資料遺失。

RTO 和 RPO值是為您的工作負載選擇適當的災難復原 (DR) 策略時的重要考量。這些目標由業務決定,然後由技術團隊用於選擇和實作 DR 策略。

預期成果: 

每個工作負載都有指派的 RTO和 RPO,根據業務影響定義。工作負載會指派給預先定義的 層,定義服務可用性和可接受的資料遺失,並具有關聯的 RTO和 RPO。如果這種分層不可行,那麼可以為每個工作負載進行定制分配,以便稍後建立分層。RTO 和 RPO 是為工作負載選擇災難復原策略實作的主要考量之一。挑選 DR 策略的其他考量是成本限制、工作負載相依性和操作需求。

對於 RTO,請根據中斷持續時間了解影響。它是線性的,還是有非線性影響?(例如,四個小時後,將生產線關閉,直到下一個班次開始)。

災難復原矩陣 (如下所示) 可協助您了解工作負載關鍵性與復原目標之間的關聯性。(請注意,X 軸和 Y 軸的實際值應根據您的組織需求來自訂)。

顯示災難復原矩陣的圖表

圖 16:災難復原矩陣

常見的反模式:

  • 沒有定義的復原目標。

  • 選擇任意復原目標。

  • 選擇過於寬鬆且不符合業務目標的復原目標。

  • 不了解停機和資料遺失的影響。

  • 選取不切實際的復原目標,例如零復原時間和零資料損失,這對於您的工作負載組態而言可能無法實現。

  • 選擇比實際業務目標更嚴格的復原目標。這會強制進行比工作負載所需更昂貴和更複雜的 DR 實作。

  • 選取與相依工作負載不相容的復原目標。

  • 您的復原目標不會考慮法規遵循要求。

  • RTO 並為工作負載RPO定義,但從未測試過。

建立此最佳實務的優勢:需以時間和資料損失的復原目標來引導 DR 實作。

未建立此最佳實務時的曝險等級:

實作指引

對於指定的工作負載,您必須了解停機和資料遺失對業務造成的影響。停機時間或資料遺失越大,影響通常也會越大,但是這種增長形式可能會因工作負載類型而有所不同。例如,您可能會容忍影響很小的一小時停機,但是在此之後,影響很快就會上升。對業務的影響表現為多種形式,包括貨幣成本 (例如收入損失)、客戶信任 (以及對聲譽的影響)、營運問題 (例如缺少薪資單或生產力下降) 以及監管風險。使用下列步驟了解這些影響,並RPO為您的工作負載設定 RTO 和 。

實作步驟

  1. 確定此工作負載的業務利益相關者,並與他們互動以實作這些步驟。工作負載的復原目標是一項業務決策。然後,技術團隊與業務利益相關者合作,使用這些目標來選擇 DR 策略。

    注意

    對於步驟 2 和 3,您可以使用 實作工作表

  2. 透過回答以下問題來收集必要的資訊以做出決定。

  3. 對於組織中的工作負載影響,您是否有關鍵性類別或層級?

    1. 如果有,請將此工作負載指派到某個類別

    2. 如果沒有,請建立這些類別。建立五個或更少的類別,並調整每個類別的復原時間點目標範圍。範例類別包括:嚴重、高、中、低。若要了解工作負載如何映射至類別,請考慮工作負載是關鍵任務、重要業務還是非業務驅動。

    3. RPO 根據類別設定工作負載 RTO和 。始終選擇比輸入此步驟計算的原始值更嚴格的類別 (低於 RTO和 RPO)。如果這會導致值發生不合適的大幅變更,請考慮建立新類別。

  4. 根據這些答案,將 RTO和 RPO值指派給工作負載。這可以直接完成,也可以透過將工作負載指派給預先定義的服務層來完成。

  5. 將此工作負載的災難復原計劃 (DRP) 記錄在工作負載團隊和利益相關者可存取的位置,這是組織業務連續性計劃 (BCP) 的一部分

    1. 記錄 RTO和 RPO,以及用於判斷這些值的資訊。包括用於評估工作負載對業務的影響的策略

    2. 除了記錄其他指標,RTORPO您是否正在追蹤或計劃追蹤災難復原目標

    3. 當您建立 DR 策略和執行手冊的詳細資訊時,將這些詳細資訊新增至此計畫。

  6. 透過查閱矩陣中的工作負載關鍵性,如圖 15,就可以開始建立為組織定義的預先定義服務層級。

  7. 根據 實作 DR 策略 (或 DR 策略的概念驗證) 之後REL13-BP02 使用定義的復原策略來滿足復原目標,請測試此策略以判斷實際工作負載 RTC(復原時間能力) 和 RPC(復原點能力)。如果這些不符合目標復原目的,則可以與您的業務利益相關者合作以調整這些目標,或者對 DR 策略進行變更以實現目標。

主要問題

  1. 在對業務造成嚴重影響之前,工作負載可以停止的最長時間是多少

    1. 如果工作負載中斷,請確定每分鐘對業務的貨幣成本 (直接財務影響)。

    2. 考慮到影響並不總是線性的。影響起初可能會受到限制,然後在臨界點後迅速增加。

  2. 在對業務造成嚴重影響之前,可能遺失的最大資料量是多少

    1. 針對最關鍵的資料存放區考慮此值。確定其他資料存放區的各自關鍵性。

    2. 如果遺失工作負載資料,是否可以重新建立? 如果此操作比備份和還原更容易操作,則RPO根據用於重新建立工作負載資料的來源資料的重要性進行選擇。

  3. 此工作負載所依賴的工作負載 (下游) 或者依賴此工作負載的工作負載 (上游) 的復原目標和可用性期望為何?

    1. 選擇允許此工作負載以符合上游相依性需求的復原目標

    2. 根據下游相依性的復原能力,選擇可實現的復原目標。可以排除非關鍵的下游相依性 (您可以「解決」的相依性)。或者,您也可以在必要時使用重要的下游相依性來改善其復原能力。

其他問題

考慮以下問題,及其如何套用於此工作負載:

  1. 您是否有不同的 RTO,RPO取決於中斷類型 (區域與 AZ 等)?

  2. 當您的 RTO/RPO 可能變更時,是否有特定的時間 (季節性、銷售事件、產品推出)? 如果是這樣,不同的測量和時間邊界是什麼?

  3. 如果工作負載中斷,有多少客戶會受到影響?

  4. 如果工作負載中斷,對聲譽有什麼影響?

  5. 如果工作負載中斷,可能會產生哪些其他營運影響? 例如,如果電子郵件系統無法使用,或薪資系統無法提交交易,對員工生產力的影響。

  6. 工作負載RTO和 如何與業務單位和組織 DR 策略RPO保持一致?

  7. 提供服務是否有內部合約義務? 未滿足這些要求是否會受到懲罰?

  8. 資料的法規或合規限制是什麼?

實作工作表

您可以將此工作表用於實行步驟 2 和 3。可以調整此工作表以滿足您的特定需求,例如新增其他問題。

工作表

工作表

實作計畫的工作量:

資源

相關的最佳實務:

相關文件:

相關影片: