本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
服務水準目標 (SLO)
可以使用 Application Signals,為關鍵業務營運服務建立服務水準目標。透過針對這些服務建立 SLO,您將能夠在 SLO 儀表板中追蹤它們,從而可以一目了然地查看最重要的操作。
除了建立操作員可用來查看關鍵操作目前狀態的快速檢視之外,您還可以使用 SLO 來追蹤服務的長期效能,以確保它們符合您的期望。如果您與客戶達成服務水準協議,SLO 是確保滿足客戶的絕佳工具。
使用 SLO 評估服務的運作狀態首先要根據關鍵效能指標 (服務水準指標 (SLI)) 來設定明確、可衡量的目標。SLO 會根據您設定的閾值和目標來追蹤 SLI 效能,並報告應用程式效能與閾值之間的距離。
Application Signals 可協助您在關鍵效能指標上設定 SLO。Application Signals 會自動收集它發現的每個服務和操作的 Latency
和 Availability
指標,而且這些指標通常非常適合用作 SLI。透過 SLO 建立精靈,您可以將這些指標用於 SLO。然後,您可以使用 Application Signals 儀表板來追蹤所有 SLO 的狀態。
可以針對服務呼叫或使用的特定操作設定 SLO。除了使用 Latency
和 Availability
指標之外,您還可以將任何 CloudWatch 指標或指標運算式用作 SLI。
建立 SLO 對於從 CloudWatch Application Signals 中獲得最大收益非常重要。建立 SLO 之後,可以在 Application Signals 主控台中檢視其狀態,以快速查看哪些重要服務和操作執行良好以及哪些運作狀態不佳。使用 SLO 進行追蹤具有下列主要好處:
您的服務營運商可以更輕鬆地查看根據 SLI 所測量的關鍵服務的當前運行狀況。然後,他們可以快速分類和識別運作狀態不佳的服務和操作。
您可以在較長時間內針對可衡量的業務目標來追蹤服務績效。
透過選擇要設定 SLO 的內容,可以優先考慮對您重要的內容。Application Signals 儀表板會自動顯示您優先選擇的內容資訊。
當您建立 SLO 時,也可以選擇同時建立 CloudWatch 警示來監控 SLO。可以設定警示來監控閾值違規情況以及警告等級。如果 SLO 指標超出您設定的閾值,或者如果它們接近警告閾值,這些警示會自動通知您。例如,接近其警告閾值的 SLO 會通知您,您的團隊可能需要減慢應用程式中的流失速度,以確保實現長期效能目標。
SLO 概念
SLO 包含下列要素:
服務水準指標 (SLI),這是您指定的主要效能指標。它表示應用程式所需的效能水準。Application Signals 會自動收集它發現的服務和操作的關鍵指標
Latency
和Availability
,而且這些指標通常非常適合用作 SLO。可以選擇用於 SLI 的閾值。例如,200 毫秒的延遲。
目標或達成目標,即 SLI 預期在每個時間間隔內達到閾值的時間或請求百分比。時間間隔可以短至幾小時或長達一年。
間隔可以是行事曆間隔或滾動間隔。
行事曆間隔會與行事曆一致,例如每月追蹤的 SLO。CloudWatch 會根據一個月中的天數,自動調整運作狀態、預算和達標數。行事曆間隔更適合按行事曆進行衡量的商業目標。
滾動間隔是在滾動基礎上計算。滾動間隔更適合追蹤應用程式的最新使用者體驗。
該時段長度較短,許多時段構成一個間隔。將應用程式的效能與間隔內每個時段的 SLI 進行比較。在每個時段,確定應用程式是否已達到必要效能。
例如,行事曆間隔為一天且週期為 1 分鐘的 99% 目標,表示應用程式必須在一天的 1 分鐘週期的 99% 內達到或實現成功閾值。如果是這樣,則當天實現 SLO。第二天是新的評估間隔,而且應用程式必須在第二天 1 分鐘週期的 99% 內達到或實現成功閾值,才能實現第二天的 SLO。
SLI 可以基於 Application Signals 收集的新標準應用程式指標之一。或者,它可以是任何 CloudWatch 指標或指標運算式。可用於 SLI 的標準應用程式指標為 Latency
和 Availability
。Availability
表示成功回應除以請求總數。它的計算方式為 (1 - 故障率)*100,其中故障回應為 5xx
錯誤。成功回應是沒有 5XX
錯誤的回應。4XX
回應會被視為成功。
計算期間型 SLOs錯誤預算和達成
當您檢視 SLO 的相關資訊時,會看到其目前運作狀態及其錯誤預算。錯誤預算是突破閾值但仍可滿足 SLO 的間隔內的時間量。總誤差預算是在整個間隔內可以容忍的違規時間總量。剩餘錯誤預算是目前間隔期間可以容忍的剩餘違規時間量。這是在從總錯誤預算中減去已經發生的違規時間量之後。
下圖說明間隔為 30 天、週期為 1 分鐘且達成目標為 99% 的目標的達成與錯誤預算概念。30 天包括 43,200 個 1 分鐘。43,200 的 99% 是 42,768,因此該月中的 42,768 分鐘必須運作正常,才能實現 SLO。到目前為止,在目前的間隔中,有 130 個 1 分鐘運作不佳。

確定每個週期內的成功
在每個週期內,SLI 資料會根據用於 SLI 的統計資料彙總為單一資料點。此資料點表示週期的整個長度。系統會將該單一資料點與 SLI 閾值進行比較,以判斷週期是否正常。在儀表板上查看目前時間範圍內的運作不佳週期,可能會提醒您的服務營運商需要對服務進行分類。
如果確定週期運作狀態不佳,則整個週期長度將根據錯誤預算計算為失敗。追蹤錯誤預算可讓您了解服務是否在較長時間內達到您想要的效能。
計算請求型 SLOs錯誤預算和達成
建立 SLO 之後,您可以擷取其錯誤預算報告。錯誤預算是您的應用程式可能不符合 SLO 目標的請求量,而且您的應用程式仍然符合目標。對於以請求為基礎的 SLO,剩餘的錯誤預算是動態的,並且可以增加或減少,取決於良好請求與總請求的比率
下表說明以請求為基礎的 SLO 的計算,其間隔為 5 天,達成目標為 85%。在此範例中,我們假設在第 1 天之前沒有流量。SLO 在第 10 天未達到目標。
時間 | 請求總數 | 錯誤請求 | 過去 5 天內的累積總請求數 | 過去 5 天內的累計良好總請求數 | 以請求為基礎的達成 | 總預算請求 | 剩餘預算請求 |
---|---|---|---|---|---|---|---|
第 1 天 |
10 | 1 |
10 |
9 |
9/10 = 90% |
1.5 |
0.5 |
第 2 天 |
5 |
1 |
15 |
13 |
13/15=86% |
2.3 |
0.3 |
第 3 天 |
1 |
1 |
16 |
13 |
13/16=81% |
2.4 |
-0.6 |
第 4 天 |
24 |
0 |
40 |
37 |
37/40=92% |
6.0 |
3.0 |
第 5 天 |
20 |
5 |
60 |
52 |
52/60=87% |
9.0 |
1.0 |
第 6 天 |
6 |
2 |
56 |
47 |
47/56=84% |
8.4 |
-0.6 |
第 7 天 |
10 |
3 |
61 |
50 |
50/61=82% |
9.2 |
-1.8 |
第 8 天 |
15 |
6 |
75 |
59 |
59/75=79% |
11.3 |
-4.7 |
第 9 天 |
12 |
1 |
63 |
46 |
46/63=73% |
9.5 |
-7.5 |
第 10 天 |
5 |
57 |
40 |
40/57=70% |
8.5 |
-8.5 | |
過去 5 天的最終達成 |
|
70% |
計算燒錄率並選擇性地設定燒錄率警示
您可以使用 Application Signals 來計算服務層級目標的燒錄率。燒錄率是一種指標,指出相對於 SLO 的達成目標,服務耗用錯誤預算的速度。其表示為基準錯誤率的倍數係數。
燒錄率是根據基準錯誤率計算,這取決於達成目標。達成目標是必須達成的正常運作時段或成功請求的百分比,才能達成 SLO 目標。基準錯誤率為 (100% - 達成目標百分比),此數字會在 SLO 時間間隔結束時用完確切的完整錯誤預算。因此,達成目標為 99% 的 SLO 的基準錯誤率為 1%。
監控燒錄率可告訴我們離基準錯誤率多遠。再次以 99% 的達成目標為例,下列為真:
燒錄率 = 1:如果燒錄率始終完全保持在基準錯誤率,我們完全符合 SLO 目標。
燒錄率 < 1:如果燒錄率低於基準錯誤率,我們正如期超越 SLO 目標。
燒錄率 > 1:如果燒錄率高於基準錯誤率,我們就有機會使 SLO 目標失敗。
當您為 SLOs 建立燒錄率時,您也可以選擇同時建立 CloudWatch 警示來監控燒錄率。您可以設定燒錄率的閾值,如果燒錄率指標超過您設定的閾值,警示就會自動通知您。例如,接近閾值的燒錄率可以讓您知道,SLO 透過錯誤預算的燒錄速度比您的團隊所能容忍的速度快,而且您的團隊可能需要在應用程式中減緩流失速度,以確保達到長期效能目標。
建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch 定價
計算燒錄率
若要計算燒錄率,您必須指定回顧視窗。回顧視窗是測量錯誤率的持續時間。
burn rate = error rate over the look-back window / (100% - attainment goal)
注意
當沒有燒錄率期間的資料時,Application Signals 會根據達成情況計算燒錄率。
錯誤率的計算方式為在燒錄率時段內,錯誤事件數量與事件總數的比率:
對於以期間為基礎的 SLOs,錯誤率的計算方式是錯誤期間除以總期間。總句點表示回顧時段期間的整個句點。
對於請求型 SLOs,這是錯誤請求除以請求總數的衡量。請求總數是回顧時段內的請求數。
回顧視窗必須是 SLO 期間時間的倍數,且必須小於 SLO 間隔。
判斷燒錄率警示的適當閾值
當您設定燒錄率警示時,您需要選擇燒錄率的值作為警示閾值。此閾值的值取決於 SLO 間隔長度和回顧視窗,並取決於您的團隊想要採用的方法或心智模式。有兩種主要方法來判斷閾值。
方法 1:判斷您的團隊願意在回顧視窗中燒錄的預估總錯誤預算百分比。
如果您想要在最後一個燒錄率回顧小時內花費 X% 的預估錯誤預算時收到警示,燒錄率閾值如下:
burn rate threshold = X% * SLO interval length / look-back window size
例如,在 30 天 (720 小時) 錯誤預算中花費超過一小時的 5% 需要 的燒錄率5% * 720 / 1 = 36
。因此,如果燒錄率回顧時段為 1 小時,我們會將燒錄率閾值設定為 36。
您可以使用 CloudWatch 主控台使用此方法建立燒錄率警示。您可以指定數字 X,並使用上述公式決定閾值。
SLO 間隔長度取決於 SLO 間隔類型:
對於具有滾動間隔SLOs,它是間隔的長度,以小時為單位。
對於具有以行事曆為基礎的間隔的 SLOs:
如果單位為天或週,則為間隔的長度,以小時為單位。
如果單位是一個月,我們需耗時 30 天做為預估長度,並將其轉換為小時。
方法 2:決定下一個間隔的時間單位預算耗盡
若要讓警示在最近回顧時段的目前錯誤率指出預算耗盡的時間不到 X 小時 (假設目前剩餘預算為 100%) 時通知您,您可以使用下列公式來判斷燒錄率閾值。
burn rate threshold = SLO interval length / X
我們強調上述公式中直到預算耗盡 (X) 的時間,假設剩餘預算總額目前為 100%,因此不會考慮在此間隔內已經燒毀的預算量。我們也可以將其視為下一個間隔的預算耗盡時間。
燒錄率警示的逐步解說
例如,讓我們以 28 天的滾動間隔來採用 SLO。為此 SLO 設定燒錄率警示需要兩個步驟:
設定燒錄率和回顧視窗。
建立 CloudWatch 警示來監控燒錄率。
若要開始使用,請判斷服務願意在特定時間範圍內完成的總錯誤預算。換言之,使用此句子來統計您的目標:「當總錯誤預算的 X% 在 M 分鐘內使用完畢時,我想要收到提醒。」
例如,您可能想要將目標設定為在 60 分鐘內消耗總錯誤預算的 2% 時收到提醒。
若要設定燒錄率,請先定義回顧視窗。回顧時段為 M,在此範例中為 60 分鐘。
接著,您建立 CloudWatch 警示。執行此操作時,您必須指定燒錄率的閾值。如果燒錄率超過此閾值,警示會通知您。若要尋找閾值,請使用下列公式:
burn rate threshold = X% * SLO interval length/ look-back window size
在此範例中,X 是 2,因為如果 60 分鐘內消耗了 2% 的錯誤預算,我們希望收到提醒。間隔長度為 40,320 分鐘 (28 天),而 60 分鐘是回顧時段,因此答案是:
burn rate threshold = 2% * 40,320 / 60 = 13.44.
在此範例中,您會將 13.44 設為警示閾值。
具有不同視窗的多個警示
透過在多個回顧時段上設定警示,您可以快速偵測短時段的急劇錯誤率增加,同時偵測較小的錯誤率增加,最終耗盡未注意到的錯誤預算。
此外,您可以在長時段的燒錄率和短時段的燒錄率 (長時段的 1/12) 上設定複合警示,只有在兩個燒錄率都違反閾值時才會收到通知。如此一來,您可以確保只在仍然發生的情況下才會收到提醒。如需 CloudWatch 中複合警示的詳細資訊,請參閱合併警示。
注意
您可以在建立燒錄率時,以燒錄率設定指標警示。若要在多個燒錄率警示上設定 Compoaite 警示,您必須使用 中的指示建立複合警示。
Google Site Reliability Engineering 工作手冊
一個監控一對警示的複合警示,一個有一小時時段,另一個有五分鐘時段。
第二個複合警示,可監看一對警示,一個有六小時時段,另一個有 30 分鐘時段。
第三個複合警示,可監看一對警示,一個有三天時段,另一個有六小時時段。
執行此設定的步驟如下:
-
建立 5 個燒錄率,時段為 5 分鐘、30 分鐘、1 小時、6 小時和 3 天。
建立下列三對 CloudWatch 警示。每對都包含一個長時段和一個短時段,長時段的 1/12,閾值是使用 中的步驟來決定判斷燒錄率警示的適當閾值。當您計算配對中每個警示的閾值時,請在計算中使用配對的較長回顧視窗。
1 小時和 5 分鐘燒錄率的警示 (閾值取決於總預算的 2%)
6 小時和 30 分鐘燒錄率的警示 (閾值取決於總預算的 5%)
3 天和 6 小時燒錄率的警示 (閾值取決於總預算的 10%)
對於這些配對,請建立複合警示,以便在兩個個別警示進入 ALARM 狀態時收到警示。如需建立複合警示的詳細資訊,請參閱建立複合警示。
例如,如果您的第一對警示 (一小時時段和五分鐘時段) 已命名為
OneHourBurnRate
和FiveMinuteBurnRate
,則 CloudWatch 複合警示規則會是ALARM(OneHourBurnRate) AND ALARM(FiveMinuteBurnRate)
先前的策略僅適用於間隔長度至少為三小時的 SLOs。對於間隔長度較短的 SLOs,我們建議您從一對燒錄率警示開始,其中一對警示的回顧窗口是另一個警示回顧窗口的 1/12。然後設定此對的複合警示。
建立 SLO
建議在關鍵應用程式中同時設定延遲和可用性 SLO。Application Signals 收集的這些指標符合共同的業務目標。
也可以在任何 CloudWatch 指標或產生單一時間序列的任何指標數學運算式中設定 SLO。
第一次在帳戶中建立 SLO 時,如果帳戶不存在,CloudWatchApplicationSignals 會自動在帳戶中建立 AWSServiceRoleForCloudWatchApplicationSignals 服務連結角色。此服務連結角色可讓 CloudWatch 收集 CloudWatch Logs 資料、X-Ray 追蹤資料、CloudWatch 指標資料,以及從您帳戶中的應用程式標記資料。如需 CloudWatch 服務連結角色的詳細資訊,請參閱對 CloudWatch 使用服務連結角色。
當您建立 SLO 時,您可以指定它是以期間為基礎的 SLO 還是以請求為基礎的 SLO。每種類型的 SLO 都有不同的方法來評估應用程式的效能,以達成其目標。
以期間為基礎的 SLO 會在指定的總時間間隔內使用定義的時段。Application Signals 會決定應用程式是否達到其目標,以在每個期間進行。達成率計算為
number of good periods/number of total periods
。例如,對於以期間為基礎的 SLO,達到 99.9% 的達成目標表示在您的間隔內,您的應用程式必須在至少 99.9% 的時段內達到其效能目標。
請求型 SLO 不使用預先定義的時段。反之,SLO 會在間隔
number of good requests/number of total requests
期間測量。您可以隨時找到間隔截至您指定時間戳記的良好請求與總請求的比率,並根據 SLO 中設定的目標來測量該比率。
建立以期間為基礎的 SLO
使用下列程序來建立以期間為基礎的 SLO。
建立以期間為基礎的 SLO
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 在導覽窗格中,選擇服務水準目標 (SLO)。
選擇建立 SLO。
輸入 SLO 的名稱。包括服務或操作的名稱,以及適當的關鍵字 (例如延遲或可用性),可協助您快速識別分類期間 SLO 狀態所指示的內容。
對於設定服務水準指標 (SLI),執行下列其中一項操作:
在標準應用程式指標
Latency
或Availability
中設定 SLO:選擇服務操作。
選取此 SLO 將監控的服務。
選取此 SLO 將監控的操作。
針對選取計算方法,選擇期間。
選取服務與選取操作下拉式清單由過去 24 小時內的作用中服務與操作所填入。
選擇可用性或延遲,然後設定閾值。
若要在任何 CloudWatch 指標或 CloudWatch 指標數學運算式中設定 SLO:
選擇 CloudWatch 指標。
選擇選取 CloudWatch 指標。
選取指標畫面會出現。使用瀏覽或查詢索引標籤來查找所需的指標,或建立指標數學運算式。
選取想要的指標之後,請選擇圖形化指標索引標籤,然後選取要用於 SLO 的統計資料和週期。然後選擇 Select metric (選取指標)。
如需這些畫面的詳細資訊,請參閱 將指標圖形化 和 將數學運算式新增至 CloudWatch 圖形。
針對選取計算方法,選擇期間。
對於設定條件,請選取 SLO 的比較運算子和閾值,以用作成功指標。
如果在步驟 5 中選取服務操作,可以選擇性地選擇其他設定,然後調整此 SLO 的週期長度。
設定 SLO 的間隔和達成目標。如需有關間隔與達成目標及其如何同時運作的相關資訊,請參閱 SLO 概念。
(選用) 對於設定 SLO 燒錄率,請執行下列動作:
設定燒錄率的回顧視窗長度 (以分鐘為單位)。如需如何選擇此長度的資訊,請參閱 燒錄率警示的逐步解說。
若要為此 SLO 建立更多燒錄率,請選擇新增更多燒錄率,並設定額外燒錄率的回顧視窗。
(選用) 執行下列動作來建立燒錄率警示:
在設定燒錄率警示下,選取您要為其建立警示之每個燒錄率的核取方塊。對於這些警示,請執行下列動作:
指定警示進入 ALARM 狀態時要用於通知的 Amazon SNS 主題。
您可以設定燒錄率閾值,或指定您想要保持在低於最後回顧時段的估計總預算燒錄百分比。如果您設定估計總預算燒錄的百分比,則會為您計算燒錄率閾值,並用於警示。若要決定要設定的閾值,或了解此選項如何用於計算燒錄率閾值,請參閱 判斷燒錄率警示的適當閾值。
(選用) 為 SLO 設定一個或多個 CloudWatch 警示或警告閾值。
如果應用程式基於其 SLI 效能判定為運作狀態不佳,CloudWatch 警示會使用 Amazon SNS 主動通知您。
若要建立警示,請選取其中一個警示核取方塊,然後輸入或建立 Amazon SNS 主題,以便在警示進入
ALARM
狀態時用於通知。如需 CloudWatch 警示的詳細資訊,請參閱 使用 Amazon CloudWatch 警示。建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch 定價。 如果設定警告閾值,它會出現在 Application Signals 畫面中,以協助您識別尚未實現的 SLO,即使它們目前運作良好。
若要設定警告閾值,請在警告閾值中輸入閾值。當 SLO 的錯誤預算低於警告閾值時,SLO 會在多個 Application Signals 畫面中標記為警告。警告閾值也會出現在錯誤預算圖表中。也可以建立基於警告閾值的 SLO 警告警示。
若要將標籤新增至此 SLO,請選擇標籤索引標籤,然後選擇新增新標籤。標籤可協助您管理、識別、組織、搜尋及篩選資源。如需有關標記的詳細資訊,請參閱標記 AWS 資源。
注意
如果此 SLO 相關的應用程式已註冊 AWS Service Catalog AppRegistry,您可以使用
awsApplication
標籤將此 SLO 與 AppRegistry 中的應用程式建立關聯。如需詳細資訊,請參閱 AppRegistry 是什麼?選擇建立 SLO。如果也選擇建立一個或多個警示,按鈕名稱會變更以進行反映。
建立以請求為基礎的 SLO
使用下列程序來建立以請求為基礎的 SLO。
建立以請求為基礎的 SLO
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 在導覽窗格中,選擇服務水準目標 (SLO)。
選擇建立 SLO。
輸入 SLO 的名稱。包括服務或操作的名稱,以及適當的關鍵字 (例如延遲或可用性),可協助您快速識別分類期間 SLO 狀態所指示的內容。
對於設定服務水準指標 (SLI),執行下列其中一項操作:
在標準應用程式指標
Latency
或Availability
中設定 SLO:選擇服務操作。
選取此 SLO 將監控的服務。
選取此 SLO 將監控的操作。
對於選取計算方法,選擇請求。
-
選取服務與選取操作下拉式清單由過去 24 小時內的作用中服務與操作所填入。
選擇可用性或延遲。如果您選擇延遲,請設定閾值。
若要在任何 CloudWatch 指標或 CloudWatch 指標數學運算式中設定 SLO:
選擇 CloudWatch 指標。
-
針對定義目標請求,請執行下列動作:
選擇您要測量良好請求還是不良請求。
-
選擇選取 CloudWatch 指標。此指標將是目標請求與總請求比率的分子。如果您使用延遲指標,請使用修剪計數 (TC) 統計資料。如果閾值為 9 毫秒,且您使用的比較運算子小於 (<),則使用閾值 TC (:threshold - 1)。如需 TC 的詳細資訊,請參閱 語法。
選取指標畫面會出現。使用瀏覽或查詢索引標籤來查找所需的指標,或建立指標數學運算式。
-
針對定義請求總數,選擇您要用於來源的 CloudWatch 指標。此指標將是目標請求與總請求比率的分母。
選取指標畫面會出現。使用瀏覽或查詢索引標籤來查找所需的指標,或建立指標數學運算式。
選取想要的指標之後,請選擇圖形化指標索引標籤,然後選取要用於 SLO 的統計資料和週期。然後選擇 Select metric (選取指標)。
如果您使用延遲指標來為每個請求發出一個資料點,請使用範例計數統計資料來計算請求總數。
如需這些畫面的詳細資訊,請參閱 將指標圖形化 和 將數學運算式新增至 CloudWatch 圖形。
設定 SLO 的間隔和達成目標。如需有關間隔與達成目標及其如何同時運作的相關資訊,請參閱 SLO 概念。
(選用) 對於設定 SLO 燒錄率,請執行下列動作:
設定燒錄率的回顧視窗長度 (以分鐘為單位)。如需如何選擇此長度的資訊,請參閱 燒錄率警示的逐步解說。
若要為此 SLO 建立更多燒錄率,請選擇新增更多燒錄率,並設定額外燒錄率的回顧視窗。
(選用) 執行下列動作來建立燒錄率警示:
在設定燒錄率警示下,選取您要為其建立警示之每個燒錄率的核取方塊。對於這些警示,請執行下列動作:
指定警示進入 ALARM 狀態時要用於通知的 Amazon SNS 主題。
您可以設定燒錄率閾值,或指定您想要保持在低於最後回顧時段的估計總預算燒錄百分比。如果您設定估計總預算燒錄的百分比,則會為您計算燒錄率閾值,並用於警示。若要決定要設定的閾值,或了解此選項如何用於計算燒錄率閾值,請參閱 判斷燒錄率警示的適當閾值。
(選用) 為 SLO 設定一個或多個 CloudWatch 警示或警告閾值。
如果應用程式基於其 SLI 效能判定為運作狀態不佳,CloudWatch 警示會使用 Amazon SNS 主動通知您。
若要建立警示,請選取其中一個警示核取方塊,然後輸入或建立 Amazon SNS 主題,以便在警示進入
ALARM
狀態時用於通知。如需 CloudWatch 警示的詳細資訊,請參閱 使用 Amazon CloudWatch 警示。建立警示會產生費用。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch 定價。 如果設定警告閾值,它會出現在 Application Signals 畫面中,以協助您識別尚未實現的 SLO,即使它們目前運作良好。
若要設定警告閾值,請在警告閾值中輸入閾值。當 SLO 的錯誤預算低於警告閾值時,SLO 會在多個 Application Signals 畫面中標記為警告。警告閾值也會出現在錯誤預算圖表中。也可以建立基於警告閾值的 SLO 警告警示。
若要將標籤新增至此 SLO,請選擇標籤索引標籤,然後選擇新增新標籤。標籤可協助您管理、識別、組織、搜尋及篩選資源。如需有關標記的詳細資訊,請參閱標記 AWS 資源。
注意
如果此 SLO 相關的應用程式已註冊 AWS Service Catalog AppRegistry,您可以使用
awsApplication
標籤將此 SLO 與 AppRegistry 中的應用程式建立關聯。如需詳細資訊,請參閱 AppRegistry 是什麼?選擇建立 SLO。如果也選擇建立一個或多個警示,按鈕名稱會變更以進行反映。
檢視和分類 SLO 狀態
可以使用 CloudWatch 主控台中的服務水準目標或服務選項,快速查看 SLO 的運作狀態。服務檢視可一目了然地了解運作狀態不佳的服務比率,根據您所設定的 SLO 進行計算。如需有關使用服務選項的詳細資訊,請參閱 使用 Application Signals 監控應用程式的運作狀態。
服務水準目標檢視可宏觀了解您的組織。可總體上查看已實現和未實現的 SLO。根據您選擇的 SLI,這可讓您了解在較長時間內,有多少服務和操作符合您的期望。
若要使用「服務水準目標」檢視來檢視所有 SLO
-
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 在導覽窗格中,選擇服務水準目標 (SLO)。
服務水準目標 (SLO) 清單隨即出現。
可以在 SLI 狀態欄中快速查看 SLO 的目前狀態。若要排序 SLO,讓所有狀況不佳的 SLO 都位於清單頂端,請選擇 SLI 狀態欄,直到狀態不佳的 SLO 全部位於最上方。
SLO 資料表包含以下預設資料欄。可以選擇清單上方的齒輪圖示來調整要顯示的資料欄。如需有關目標、SLI、達成目標及間隔的詳細資訊,請參閱 SLO 概念。
SLO 的名稱。
目標資料欄會顯示每個間隔內必須順利達到 SLI 閾值才能實現 SLI 目標的週期百分比。它也會顯示 SLO 的間隔長度。
SLI 狀態會顯示應用程式目前的操作狀態是否正常。如果目前所選時間範圍內的任何週期對於 SLO 而言狀況不佳,則 SLI 狀態會顯示狀況不佳。
最終成就是指截至所選時間範圍結束時達到的成就水準。依此資料欄排序,查看最有可能無法實現的 SLO。
成就差異是所選時間範圍的開始與結束之間的成就水準差異。負差值表示指標呈下降趨勢。依此資料欄排序,查看 SLO 的最新趨勢。
結束錯誤預算 (%) 是指週期內可能有狀態不佳週期但仍可順利實現 SLO 的總時間百分比。如果將此值設定為 5%,且間隔中剩餘週期的 5% 或更少的 SLI 狀況不佳,則仍會成功實現 SLO。
錯誤預算差異是指所選時間範圍開始與結束之間的錯誤預算差異。負差值表示指標呈下降趨勢。
結束錯誤預算 (時間) 是指運作狀態不佳但仍可成功實現 SLO 的間隔中的實際時間量。例如,如果為 14 分鐘,則若 SLI 在剩餘間隔期間運作不佳的時間少於 14 分鐘,仍然可以成功實現 SLO。
-
結束錯誤預算 (請求) 是間隔中可能運作狀態不佳,但仍能成功達成 SLO 的請求數量。對於以請求為基礎的 SLOs,此值是動態的,並且可能會隨著請求的累積總數隨時間而變化而波動。
服務、操作和類型資料欄會顯示設定為此 SLO 之服務與操作的相關資訊。
若要查看 SLO 的達成與錯誤預算圖,請選擇 SLO 名稱旁的選項按鈕。
頁面頂端的圖形會顯示 SLO 達成與錯誤預算狀態。也會顯示與此 SLO 相關聯之 SLI 指標的圖形。
若要進一步分類不符合其目標的 SLO,請選擇與該 SLO 相關聯的服務名稱或操作名稱。將轉至詳細資訊頁面,可以在其中進一步分類。如需詳細資訊,請參閱使用服務詳細資訊頁面檢視詳細的服務活動和作業狀態。
若要變更頁面中圖表和資料表的時間範圍,請選擇靠近畫面頂端的新時間範圍。
編輯現有 SLO
請依照下列步驟編輯現有 SLO。編輯 SLO 時,只能變更閾值、間隔、達成目標和標籤。若要變更其他方面 (例如服務、操作或指標),請建立新的 SLO,而非編輯現有 SLO。
變更 SLO 部分核心組態 (例如週期或閾值) 會使先前所有資料點以及有關達成效果與運作狀態的評估失效。它可有效刪除並重新建立 SLO。
注意
如果編輯 SLO,與該 SLO 相關聯的警示不會自動更新。可能需要更新警示,以使與 SLO 保持同步。
編輯現有 SLO
-
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 在導覽窗格中,選擇服務水準目標 (SLO)。
選擇您要編輯之 SLO 旁的選項按鈕,然後選擇動作 > 編輯 SLO。
進行變更,然後選擇儲存變更。
刪除 SLO
請依照下列步驟刪除現有 SLO。
注意
刪除 SLO 時,與該 SLO 相關聯的警示不會自動刪除。您需要自行刪除它們。如需詳細資訊,請參閱管理警示。
刪除 SLO
-
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 在導覽窗格中,選擇服務水準目標 (SLO)。
選擇您要編輯之 SLO 旁的選項按鈕,然後選擇動作 > 刪除 SLO。
選擇確認。