服務層級目標 (SLOs) - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

服務層級目標 (SLOs)

可以使用 Application Signals,為關鍵業務營運服務建立服務水準目標。透過在這些服務SLOs上建立,您將能夠在SLO儀表板上追蹤這些服務,讓您 at-a-glance檢視最重要的操作。

除了建立快速檢視之外,您的運算子還可以用來查看關鍵操作的目前狀態,您還可以使用 SLOs 來追蹤服務的長期效能,以確保它們符合您的期望。如果您與客戶簽訂服務層級協議, SLOs 是確保符合這些標準的絕佳工具。

評估您服務的運作狀態,SLOs從根據主要效能指標設定明確且可衡量的目標開始:服務層級指標 (SLIs)。會根據您設定的閾值和目標SLO追蹤SLI效能,並報告應用程式效能與閾值的距離或接近程度。

Application Signals 可協助您SLOs設定關鍵效能指標。Application Signals 會自動收集其探索的每個服務和操作的 和 Latency Availability 指標,而且這些指標通常非常適合用作 SLIs。透過SLO建立精靈,您可以將這些指標用於 SLOs。然後,您可以使用 SLOs Application Signals 儀表板追蹤所有 的狀態。

您可以在服務呼叫或使用的特定操作SLOs上設定 。除了使用 Latency和 CloudWatch 指標之外SLI,您還可以使用任何指標或Availability指標表達式作為 。

建立SLOs對於從 Application Signals 中獲得 CloudWatch最大利益非常重要。建立 後SLOs,您可以在 Application Signals 主控台中檢視其狀態,以快速查看哪些關鍵服務和操作效能良好,哪些運作狀態不佳。必須SLOs追蹤提供下列主要優點:

  • 您的服務運算子更容易查看關鍵服務目前的運作狀態,如根據 所測量SLI。然後,他們可以快速分類和識別運作狀態不佳的服務和操作。

  • 您可以在較長時間內針對可衡量的業務目標來追蹤服務績效。

透過選擇要設定的內容SLOs,您可以優先考慮對您重要的事項。Application Signals 儀表板會自動顯示您優先選擇的內容資訊。

建立 時SLO,您也可以選擇同時建立 CloudWatch 警示來監控 SLOs。可以設定警示來監控閾值違規情況以及警告等級。如果SLO指標違反您設定的閾值,或接近警告閾值,這些警示就會自動通知您。例如,SLO接近其警告閾值可以讓您知道,您的團隊可能需要減緩應用程式中的流失速度,以確保達到長期效能目標。

SLO 概念

SLO 包含下列元件:

  • 服務層級指標 (SLI),這是您指定的關鍵效能指標。它表示應用程式所需的效能水準。Application Signals 會自動收集主要指標Latency,以及其探索Availability的服務和操作,這些指標通常是要SLOs設定的理想指標。

    您可以選擇要用於 的閾值SLI。例如,200 毫秒的延遲。

  • 目標達成目標 ,這是 SLI 預期在每個時間間隔內達到閾值的時間或請求百分比。時間間隔可以短至幾小時或長達一年。

    間隔可以是行事曆間隔或滾動間隔。

    • 行事曆間隔會與行事曆保持一致,例如每月追蹤SLO的 。 會根據每月的天數 CloudWatch 自動調整運作狀態、預算和達成次數。行事曆間隔更適合按行事曆進行衡量的商業目標。

    • 滾動間隔是在滾動基礎上計算。滾動間隔更適合追蹤應用程式的最新使用者體驗。

  • 時段長度較短,許多時段構成一個間隔。應用程式的效能會與間隔內SLI每個期間的 進行比較。在每個時段,確定應用程式是否已達到必要效能。

例如,行事曆間隔為一天且週期為 1 分鐘的 99% 目標,表示應用程式必須在一天的 1 分鐘週期的 99% 內達到或實現成功閾值。如果是這樣,則 SLO 會符合當天的 。第二天是新的評估間隔,應用程式必須在第二天的 1 分鐘期間達到或達到 99% 的成功閾值,才能符合第二天SLO的 。

SLI 可以根據 Application Signals 收集的新標準應用程式指標之一。或者,它可以是任何 CloudWatch 指標或指標表達式。您可以用於 的標準應用程式指標SLI為 LatencyAvailabilityAvailability代表成功回應除以請求總數。它的計算方式為 (1 - 故障率)*100,其中故障回應為 5xx 錯誤。成功回應是沒有 5XX 錯誤的回應。4XX 回應會被視為成功。

計算以期間為基礎的錯誤預算和達成 SLOs

當您檢視 的相關資訊時SLO,您會看到其目前的運作狀態及其錯誤預算 。錯誤預算是間隔內可能違反閾值,但仍讓 SLO 符合的時間長度。總誤差預算是在整個間隔內可以容忍的違規時間總量。剩餘錯誤預算是目前間隔期間可以容忍的剩餘違規時間量。這是在從總錯誤預算中減去已經發生的違規時間量之後。

下圖說明目標的達成和錯誤預算概念,其間隔為 30 天、間隔為 1 分鐘,達成目標為 99%。30 天包含 43,200 個 1 分鐘。43,200 的 99% 為 42,768,因此當月 42,768 分鐘必須運作良好SLO,才能符合 。到目前為止,在目前的間隔中,有 130 個 1 分鐘運作不佳。

長條圖圖表,顯示SLO間隔的總期間,以及此 的達成和錯誤預算編號SLO。

確定每個週期內的成功

在每個期間,SLI資料會根據用於 的統計資料彙總到單一資料點SLI。此資料點表示週期的整個長度。該單一資料點會與SLI閾值進行比較,以判斷期間是否良好。在儀表板上查看目前時間範圍內的運作不佳週期,可能會提醒您的服務營運商需要對服務進行分類。

如果確定週期運作狀態不佳,則整個週期長度將根據錯誤預算計算為失敗。追蹤錯誤預算可讓您了解服務是否在較長時間內達到您想要的效能。

計算以請求為基礎的錯誤預算和達成 SLOs

建立 之後SLO,您可以擷取 的錯誤預算報告。錯誤預算是您的應用程式可能不符合 SLO目標的請求量,而且您的應用程式仍然符合目標。對於以請求為基礎的 SLO,剩餘的錯誤預算是動態的,並且可以增加或減少,具體取決於良好請求與總請求的比率

下表說明以請求為基礎的計算SLO,其間隔為 5 天,達成目標為 85%。在此範例中,我們假設在第 1 天前沒有流量。第 10 天時, SLO 不符合目標。

時間 請求總數 錯誤請求 過去 5 天內的累積總請求數 過去 5 天內的累積總良好請求 以請求為基礎的達成 總預算請求 剩餘預算請求

第 1 天

10 1

10

9

9/10 = 90%

1.5

0.5

第 2 天

5

1

15

13

13/15=86%

2.3

0.3

第 3 天

1

1

16

13

13/16=81%

2.4

-0.6

第 4 天

24

0

40

37

37/40=92%

6.0

3.0

第 5 天

20

5

60

52

52/60=87%

9.0

1.0

第 6 天

6

2

56

47

47/56=84%

8.4

-0.6

第 7 天

10

3

61

50

50/61=82%

9.2

-1.8

第 8 天

15

6

75

59

59/75=79%

11.3

-4.7
第 9 天

12

1

63

46

46/63=73%

9.5

-7.5

第 10 天

5

57

40

40/57=70%

8.5

-8.5

過去 5 天的最終成就

70%

計算燒錄率並選擇性地設定燒錄率警示

您可以使用 Application Signals 來計算服務層級目標的燒錄率。燒錄率是一種指標,指出服務相對於 達成目標的耗用錯誤預算的速度SLO。它表示為基準錯誤率的多工係數。

燃燒率是根據基準錯誤率 計算,這取決於達成目標。達成目標是指必須達成的健康時段或成功請求的百分比,才能達成目標SLO。基準錯誤率為 (100% - 達成目標百分比),此數字會在 SLO的時間間隔結束時用完確切的完整錯誤預算。因此SLO,達成目標為 99% 的 基準錯誤率為 1%。

監控燒錄率可告訴我們離基準錯誤率多遠。再次以 99% 的達成目標為例,下列為真:

  • 燒錄率 = 1:如果燒錄率始終完全保持在基準錯誤率,我們就會完全符合SLO目標。

  • 燒錄率 < 1:如果燒錄率低於基準錯誤率,我們正朝著超越SLO目標的方向前進。

  • 燒錄率 > 1:如果燒錄率高於基準錯誤率,我們就有機會無法SLO達成目標。

當您為 建立燒錄率時SLOs,您也可以選擇同時建立 CloudWatch 警示來監控燒錄率。您可以設定燒錄率的閾值,如果燒錄率指標違反您設定的閾值,警示就會自動通知您。例如,接近其閾值的燒錄率可以讓您知道, SLO 的燒錄通過錯誤預算的速度比您的團隊所能容忍的速度快,而且您的團隊可能需要在應用程式中減緩流失速度,以確保達到長期效能目標。

建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch Pricing

計算燒錄率

若要計算燒錄率,您必須指定回顧視窗 。回顧時段是測量錯誤率的持續時間。

burn rate = error rate over the look-back window / (100% - attainment goal)

錯誤率的計算方式,是燒錄率時段內錯誤事件總數與事件總數的比率:

  • 對於以期間為基礎的 SLOs,錯誤率計算為不良期間除以總期間。總句點表示回顧時段期間的整個句點。

  • 對於請求型 SLOs,這是錯誤請求除以請求總數的指標。請求總數是回顧時段內的請求數。

回顧時段必須是SLO時段時間的倍數,且必須小於SLO間隔。

判斷燒錄率警示的適當閾值

設定燒錄率警示時,您需要選擇燒錄率的值作為警示閾值。此閾值的值取決於SLO間隔長度和回顧時段,並取決於您的團隊想要採用的方法或心智模式。有兩種主要方法來判斷閾值。

方法 1:決定您的團隊願意在回顧視窗中燒錄的預估總錯誤預算百分比。

如果您想要在上次燒錄率回顧小時內花費 X% 的預估錯誤預算時收到警示,燒錄率閾值如下:

burn rate threshold = X% * SLO interval length / look-back window size

例如,花費超過一小時的 30 天 (720 小時) 錯誤預算中有 5% 需要 的燒錄率5% * 720 / 1 = 36。因此,如果燒錄率回顧時段為 1 小時,我們會將燒錄率閾值設定為 36。

您可以使用 CloudWatch 主控台使用此方法建立燒錄率警示。您可以指定數字 X,並使用上述公式決定閾值。

SLO 間隔長度是根據SLO間隔類型決定:

  • 對於SLOs具有滾動間隔的 ,它是間隔的長度,以小時為單位。

  • 對於SLOs具有行事曆型間隔的 :

    • 如果單位為天或週,則為間隔的長度,以小時為單位。

    • 如果單位為一個月,則需耗時 30 天作為預估長度,並將其轉換為小時。

方法 2:決定下一個間隔的時間單位預算耗盡

若要讓警示在最近回顧時段的目前錯誤率指出預算耗盡的時間不到 X 小時 (假設目前剩餘的預算為 100%) 時通知您,您可以使用下列公式來判斷燒錄率閾值。

burn rate threshold = SLO interval length / X

我們強調上述公式中直到預算耗盡 (X) 的時間,假設剩餘的總預算目前為 100%,因此不會考慮在此間隔內已經燒毀的預算量。我們也可以將其視為下一個間隔的預算耗盡時間。

燒錄率警示的逐步解說

例如,讓我們以 SLO 28 天的滾動間隔來使用 。為此設定燒錄率警示SLO包含兩個步驟:

  1. 設定燒錄率和回顧視窗。

  2. 建立 CloudWatch 監控燒錄率的警示。

若要開始,請判斷服務願意在特定時間範圍內完成的總錯誤預算。換句話說,使用此句來統計您的目標:「當在 M 分鐘內消耗總錯誤預算的 X% 時,我想要收到提醒。」

例如,您可能想要將目標設定為在 60 分鐘內消耗總錯誤預算的 2% 時收到提醒。

若要設定燒錄率,請先定義回顧視窗。回顧時段為 M,在此範例中為 60 分鐘。

接下來,建立 CloudWatch 警示。執行此操作時,您必須指定燒錄率的閾值。如果燒錄率超過此閾值,警示會通知您。若要尋找閾值,請使用下列公式:

burn rate threshold = X% * SLO interval length/ look-back window size

在此範例中,X 為 2,因為如果 60 分鐘內消耗了 2% 的錯誤預算,我們希望收到提醒。間隔長度為 40,320 分鐘 (28 天),而 60 分鐘是回顧時段,因此答案是:

burn rate threshold = 2% * 40,320 / 60 = 13.44.

在此範例中,您會將 13.44 設為警示閾值。

具有不同視窗的多個警示

透過在多個回顧視窗上設定警示,您可以快速偵測短時間範圍內的急劇錯誤率增加,同時偵測較小的錯誤率增加,最終在未察覺的情況下耗盡錯誤預算。

此外,您可以在長窗口的燃燒率和短窗口的燃燒率 (長窗口的 1/12) 上設定複合警示,並且只有在兩個燃燒率都違反閾值時才會收到通知。如此一來,您才能確保只在仍在發生的情況下收到提醒。如需 中複合警示的詳細資訊 CloudWatch,請參閱 合併警示

注意

您可以在建立燒錄率時,設定燒錄率的指標警示。若要在多個燒錄率警示上設定 Compoaite 警示,您必須使用 中的說明建立複合警示

Google Site Reliability Engineering 工作手冊中建議的一個複合警示策略包括三個複合警示:

  • 一個複合警示,可監控一對警示,一個有一小時時段,另一個有五分鐘時段。

  • 第二個複合警示,可監看一對警示,一個有六小時時段,另一個有 30 分鐘時段。

  • 第三個複合警示,可監控一對警示,一個有三天時段,另一個有六小時時段。

執行此設定的步驟如下:

  1. 建立 5 個燒錄率,時間範圍為 5 分鐘、30 分鐘、1 小時、6 小時和 3 天。

  2. 建立下列三對 CloudWatch 警示。每對都包含一個長時段和一個長時段的 1/12 短時段,閾值是使用 中的步驟來決定判斷燒錄率警示的適當閾值。當您計算對中每個警示的閾值時,請在計算中使用對的較長回顧時段。

    • 1 小時和 5 分鐘燒錄率的警示 (閾值取決於總預算的 2%)

    • 6 小時和 30 分鐘燒錄率的警示 (閾值取決於總預算的 5%)

    • 3 天和 6 小時燒錄率的警示 (閾值取決於總預算的 10%)

  3. 對於這些對中的每對,請建立複合警示,以便在兩個個別警示進入ALARM狀態時收到警示。如需建立複合警示的詳細資訊,請參閱 建立複合警示

    例如,如果您的第一對警示 (一小時時段和五分鐘時段) 已命名為 OneHourBurnRateFiveMinuteBurnRate,則 CloudWatch 複合警示規則將為 ALARM(OneHourBurnRate) AND ALARM(FiveMinuteBurnRate)

先前的策略僅適用於SLOs間隔長度至少為三小時的 。對於間隔長度SLOs較短的 ,建議您從一對燒錄率警示開始,其中一對警示的回顧窗口為另一個警示回顧窗口的 1/12。然後在這對上設定複合警示。

建立 SLO

建議您在關鍵應用程式SLOs上同時設定延遲和可用性。Application Signals 收集的這些指標符合共同的業務目標。

您也可以在任何 CloudWatch 指標或任何導致單一時間序列的指標數學表達式SLOs上進行設定。

第一次SLO在帳戶中建立 時,如果帳戶不存在, CloudWatch 會自動在帳戶中建立AWSServiceRoleForCloudWatchApplicationSignals服務連結角色。此服務連結角色允許從您帳戶中的應用程式 CloudWatch 收集 CloudWatch 日誌資料、X-Ray 追蹤資料、 CloudWatch 指標資料和標記資料。如需 CloudWatch 服務連結角色的詳細資訊,請參閱 使用 CloudWatch 的服務連結角色

當您建立 時SLO,您可以指定它是以期間為基礎SLO還是以請求為基礎的 SLO。每種類型的 SLO 都有不同的方法來評估應用程式的效能,以達成其目標。

  • 以期間為基礎的 SLO 會在指定的總時間間隔內使用定義的時段。Application Signals 會決定應用程式是否達到其目標,並針對每個期間進行判斷。達成率計算為 number of good periods/number of total periods

    例如,對於以期間為基礎的 SLO,達到 99.9% 的達成目標表示在您的間隔內,您的應用程式必須在至少 99.9% 的時段內達到其效能目標。

  • 請求型 SLO 不使用預先定義的時段。相反地,是間隔number of good requests/number of total requests期間的SLO量值。您可以隨時找到間隔截至您指定時間戳記的良好請求與總請求的比率,並根據 中設定的目標來測量該比率SLO。

建立以期間為基礎的 SLO

使用下列程序建立以期間為基礎的 SLO。

若要建立以期間為基礎的 SLO
  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 在導覽窗格中,選擇服務層級目標 (SLO)

  3. 選擇建立 SLO

  4. 輸入 的名稱SLO。包括服務或操作的名稱,以及延遲或可用性等適當關鍵字,將可協助您快速識別分類期間SLO的狀態指示。

  5. 針對設定服務層級指示器 (SLI),執行下列其中一項操作:

    • 若要在標準應用程式指標Latency或 SLO上設定 Availability

      1. 選擇服務操作

      2. 選取這SLO將監控的服務。

      3. 選取這SLO將監控的操作。

      4. 針對選取計算方法 ,選擇期間

        選取服務選取操作下拉式清單由過去 24 小時內的作用中服務與操作所填入。

      5. 選擇可用性延遲,然後設定閾值。

    • 若要在任何 CloudWatch 指標或 CloudWatch 指標數學表達式SLO上設定 :

      1. 選擇CloudWatch 指標

      2. 選擇選取 CloudWatch 指標

        選取指標畫面會出現。使用瀏覽查詢索引標籤來查找所需的指標,或建立指標數學運算式。

        選取所需的指標後,請選擇圖形指標索引標籤,然後選取要用於 的統計期間SLO。然後選擇 Select metric (選取指標)

        如需這些畫面的詳細資訊,請參閱 將指標圖形化將數學表達式新增至 CloudWatch 圖形

      3. 針對選取計算方法 ,選擇期間

      4. 針對設定條件 ,選取比較運算子和閾值SLO,讓 用作成功指標。

  6. 如果您在步驟 5 中選取了服務操作,您可以選擇其他設定,然後調整此 的期間長度SLO。

  7. 設定 的間隔達成目標SLO。如需有關間隔與達成目標及其如何同時運作的相關資訊,請參閱 SLO 概念

  8. (選用) 對於設定SLO燒錄率,請執行下列操作:

    • 設定燒錄率的回顧視窗長度 (以分鐘為單位)。如需有關如何選擇此長度的資訊,請參閱 燒錄率警示的逐步解說

    • 若要為此 建立更多燒錄率SLO,請選擇新增更多燒錄率,並設定額外燒錄率的回顧時段。

  9. (選用) 透過執行下列動作建立燒錄率警示:

    • 設定燒錄率警示下,選取您要為其建立警示的每個燒錄率的核取方塊。對於這些警示,請執行下列動作:

      • 指定警示進入ALARM狀態時要用於通知的 Amazon SNS主題。

      • 可以設定燒錄率閾值,或指定您想要保持在以下的最後回顧時段中估計總預算燒錄的百分比。如果您設定估計總預算燒錄的百分比,則會為您計算燒錄率閾值,並用於警示。若要決定要設定的閾值,或了解此選項如何用於計算燒錄率閾值,請參閱 判斷燒錄率警示的適當閾值

  10. (選用) 為 設定一或多個 CloudWatch 警示或警告閾值SLO。

    1. CloudWatch 如果應用程式效能不佳,警示可以使用 Amazon SNS主動通知您SLI。

      若要建立警示,請選取其中一個警示核取方塊,然後輸入或建立 Amazon SNS主題,以便在警示進入ALARM狀態時用於通知。如需 CloudWatch 警示的詳細資訊,請參閱 使用 Amazon CloudWatch 警示。建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch Pricing

    2. 如果您設定警告閾值,它會顯示在 Application Signals 畫面中,以協助您識別處於未滿足危險SLOs,即使它們目前狀態良好。

      若要設定警告閾值,請在警告閾值中輸入閾值。當 SLO的錯誤預算低於警告閾值時,在數個 Application Signals 畫面中SLO會以警告標記 。警告閾值也會出現在錯誤預算圖表中。您也可以根據SLO警告閾值建立警告警示。

  11. 若要將標籤新增至此 SLO,請選擇標籤索引標籤,然後選擇新增標籤 。標籤可協助您管理、識別、組織、搜尋及篩選資源。如需有關標記的詳細資訊,請參閱標記 AWS 資源

    注意

    如果SLO與之相關的應用程式已在 中註冊 AWS Service Catalog AppRegistry,您可以使用 awsApplication標籤來將此SLO與 中的應用程式建立關聯 AppRegistry。如需詳細資訊,請參閱什麼是 AppRegistry?

  12. 選擇建立 SLO。如果也選擇建立一個或多個警示,按鈕名稱會變更以進行反映。

建立以請求為基礎的 SLO

使用下列程序建立以請求為基礎的 SLO。

建立以請求為基礎的 SLO
  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 在導覽窗格中,選擇服務層級目標 (SLO)

  3. 選擇建立 SLO

  4. 輸入 的名稱SLO。包括服務或操作的名稱,以及延遲或可用性等適當關鍵字,將可協助您快速識別分類期間SLO的狀態指示。

  5. 針對設定服務層級指示器 (SLI),執行下列其中一項操作:

    • 若要在標準應用程式指標Latency或 SLO上設定 Availability

      1. 選擇服務操作

      2. 選取這SLO將監控的服務。

      3. 選取這SLO將監控的操作。

      4. 對於選取計算方法 ,選擇請求

      5. 選取服務選取操作下拉式清單由過去 24 小時內的作用中服務與操作所填入。

      6. 選擇可用性延遲。如果您選擇延遲 ,請設定閾值。

    • 若要在任何 CloudWatch 指標或 CloudWatch 指標數學表達式SLO上設定 :

      1. 選擇CloudWatch 指標

      2. 對於定義目標請求 ,請執行下列動作:

        1. 選擇您要測量 Good RequestsBad Requests

        2. 選擇選取 CloudWatch 指標 。此指標將是目標請求與總請求比率的分子。如果您使用延遲指標,請使用修剪計數 (TC) 統計資料。如果閾值為 9 毫秒,且您使用的比較運算子小於 (<),則使用閾值 TC (:threshold - 1)。如需 TC 的詳細資訊,請參閱 語法

          選取指標畫面會出現。使用瀏覽查詢索引標籤來查找所需的指標,或建立指標數學運算式。

      3. 針對定義請求總數 ,選擇您要用於來源的 CloudWatch 指標。此指標將是目標請求與總請求比率的分母。

        選取指標畫面會出現。使用瀏覽查詢索引標籤來查找所需的指標,或建立指標數學運算式。

        選取您想要的指標後,請選擇圖形指標索引標籤,然後選取要用於 的統計資料期間SLO。然後選擇 Select metric (選取指標)

        如果您使用延遲指標,為每個請求發出一個資料點,請使用範例計數統計資料來計算請求總數。

        如需這些畫面的詳細資訊,請參閱 將指標圖形化將數學表達式新增至 CloudWatch 圖形

  6. 設定 的間隔達成目標SLO。如需有關間隔與達成目標及其如何同時運作的相關資訊,請參閱 SLO 概念

  7. (選用) 對於設定SLO燒錄率,請執行下列操作:

    • 設定燒錄率的回顧視窗長度 (以分鐘為單位)。如需有關如何選擇此長度的資訊,請參閱 燒錄率警示的逐步解說

    • 若要為此 建立更多燒錄率SLO,請選擇新增更多燒錄率,並設定額外燒錄率的回顧視窗。

  8. (選用) 透過執行下列動作建立燒錄率警示:

    • 設定燒錄率警示下,選取您要為其建立警示之每個燒錄率的核取方塊。對於這些警示,請執行下列動作:

      • 指定警示進入ALARM狀態時要用於通知的 Amazon SNS主題。

      • 可以設定燒錄率閾值,或指定您想要保持在以下的最後回顧時段中估計總預算燒錄的百分比。如果您設定估計總預算燒錄的百分比,則會為您計算燒錄率閾值,並用於警示。若要決定要設定的閾值,或了解此選項如何用於計算燒錄率閾值,請參閱 判斷燒錄率警示的適當閾值

  9. (選用) 為 設定一或多個 CloudWatch 警示或警告閾值SLO。

    1. CloudWatch 如果應用程式效能不佳,警示可以使用 Amazon SNS主動通知您SLI。

      若要建立警示,請選取其中一個警示核取方塊,然後輸入或建立 Amazon SNS主題,以便在警示進入ALARM狀態時用於通知。如需 CloudWatch 警示的詳細資訊,請參閱 使用 Amazon CloudWatch 警示。建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch Pricing

    2. 如果您設定警告閾值,它會顯示在 Application Signals 畫面中,以協助您識別處於未滿足危險SLOs,即使它們目前狀態良好。

      若要設定警告閾值,請在警告閾值中輸入閾值。當 SLO的錯誤預算低於警告閾值時,在數個 Application Signals 畫面中SLO會以警告標記 。警告閾值也會出現在錯誤預算圖表中。您也可以根據SLO警告閾值建立警告警示。

  10. 若要將標籤新增至此 SLO,請選擇標籤索引標籤,然後選擇新增標籤 。標籤可協助您管理、識別、組織、搜尋及篩選資源。如需有關標記的詳細資訊,請參閱標記 AWS 資源

    注意

    如果SLO與之相關的應用程式已在 中註冊 AWS Service Catalog AppRegistry,您可以使用 awsApplication標籤來將此SLO與 中的應用程式建立關聯 AppRegistry。如需詳細資訊,請參閱什麼是 AppRegistry?

  11. 選擇建立 SLO。如果也選擇建立一個或多個警示,按鈕名稱會變更以進行反映。

檢視和分類SLO狀態

您可以使用 CloudWatch 主控台中的SLOs服務層級目標或服務選項,快速查看 的運作狀態。服務檢視會提供 at-a-glance運作狀態不佳服務的比率檢視,並根據SLOs您設定的比率計算。如需有關使用服務選項的詳細資訊,請參閱 使用 Application Signals 監控應用程式的運作狀態

服務水準目標檢視可宏觀了解您的組織。您可以看到SLOs整體已滿足和未滿足。這可讓您根據SLIs您選擇的 ,檢視長時間內有多少服務和操作達到預期。

SLOs 使用服務層級目標檢視檢視您的所有
  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 在導覽窗格中,選擇服務層級目標 (SLO)

    服務層級目標 (SLO) 清單隨即出現。

    您可以在狀態欄中快速查看 的目前SLOsSLI狀態。若要排序 ,SLOs讓所有運作狀態不佳的 都位於清單頂端,請選擇SLI狀態欄,直到運作狀態不佳SLOs的 都位於頂端。

    SLO 資料表具有下列預設資料欄。可以選擇清單上方的齒輪圖示來調整要顯示的資料欄。如需目標、SLIs、達成和間隔的詳細資訊,請參閱 SLO 概念

    • 的名稱SLO。

    • 目標欄會顯示每個間隔期間必須成功達到SLO目標SLI閾值的期間百分比。它也會顯示 的間隔長度SLO。

    • SLI 狀態會顯示應用程式的目前操作狀態是否運作良好。如果目前選取時間範圍中的任何期間對 運作狀態不佳SLO,則SLI狀態會顯示運作狀態不佳。

    • 最終成就是指截至所選時間範圍結束時達到的成就水準。依此欄排序,以查看SLOs最有未符合危險的 。

    • 成就差異是所選時間範圍的開始與結束之間的成就水準差異。負差值表示指標呈下降趨勢。依此欄排序以查看 的最新趨勢SLOs。

    • 結束錯誤預算 (%) 是期間的總時間百分比,該時間可能具有運作狀態不佳的期間,且仍然能夠成功SLO達成 。如果您將此設定為 5%,且在間隔中剩餘期間 5% 或更少的 SLI運作狀態不佳,SLO則 仍會成功實現。

    • 錯誤預算差異是指所選時間範圍開始與結束之間的錯誤預算差異。負差值表示指標呈下降趨勢。

    • 結束錯誤預算 (時間) 是間隔中可能運作狀態不佳且仍然成功SLO達成 的實際時間量。例如,如果這是 14 分鐘,則如果在剩餘的間隔內SLI運作狀態不佳不到 14 分鐘,SLO則 仍會成功達成。

    • 結束錯誤預算 (請求) 是間隔中可能運作狀態不佳,且仍可成功SLO達成 的請求量。對於以請求為基礎的 SLOs,此值是動態的,並且可能會隨著請求累積總數隨時間變更而波動。

    • Service Operation Type 資料欄會顯示SLO設定此服務和操作的相關資訊。

  3. 若要查看 的達成和錯誤預算圖表SLO,請選擇SLO名稱旁的選項按鈕。

    頁面頂端的圖形會顯示SLO達成錯誤預算狀態。SLO 也會顯示與此相關聯的SLI指標圖表。

  4. 若要進一步分類不符合其目標SLO的 ,請選擇與該 相關聯的服務名稱或操作名稱SLO。將轉至詳細資訊頁面,可以在其中進一步分類。如需詳細資訊,請參閱使用服務詳細資訊頁面檢視詳細的服務活動和作業狀態

  5. 若要變更頁面中圖表和資料表的時間範圍,請選擇靠近畫面頂端的新時間範圍。

編輯現有 SLO

請依照下列步驟編輯現有的 SLO。編輯 時SLO,您只能變更閾值、間隔、達成目標和標籤。若要變更服務、操作或指標等其他層面,請建立新的 ,SLO而不是編輯現有的 。

變更部分SLO核心組態,例如期間或閾值,會讓所有先前資料點和有關達成和運作狀態的評估失效。它會有效地刪除並重新建立 SLO。

注意

如果您編輯 SLO,SLO則不會自動更新與 相關聯的警示。您可能需要更新警示,讓警示與 保持同步SLO。

編輯現有的 SLO
  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 在導覽窗格中,選擇服務層級目標 (SLO)

  3. 選擇您要編輯SLO之 旁的選項按鈕,然後選擇動作 編輯 SLO

  4. 進行變更,然後選擇儲存變更

刪除 SLO

請依照下列步驟刪除現有的 SLO。

注意

當您刪除 時SLO,SLO不會自動刪除與 相關聯的警示。您需要自行刪除它們。如需詳細資訊,請參閱管理警示

刪除 SLO
  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 在導覽窗格中,選擇服務層級目標 (SLO)

  3. 選擇您要編輯SLO之 旁邊的選項按鈕,然後選擇動作 刪除 SLO

  4. 選擇確認