使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源 - Amazon Managed Service for Prometheus

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源

Amazon Managed Service for Prometheus 將用量指標編目至 CloudWatch。這些指標提供有關工作區使用率的可見性。您可以在 AWS/UsageAWS/Prometheus的命名空間中找到已結束的指標 CloudWatch。這些指標可在 中 CloudWatch免費取得。如需使用量指標的詳細資訊,請參閱CloudWatch 使用量指標

CloudWatch 指標名稱 資源名稱 CloudWatch 命名空間 描述

ResourceCount

IngestionRate

AWS/Usage

範例擷取速率

單位:每秒計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

ActiveSeries

AWS/Usage

每個工作區的啟用中序列數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

ActiveAlerts

AWS/Usage

每個工作區的啟用中警示數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

SizeOfAlerts

AWS/Usage

工作區中所有提醒的總大小,以位元組為單位

單位:位元組

有效統計資訊:平均數、下限、上限、總和

ResourceCount

SuppressedAlerts

AWS/Usage

每個工作區處於隱藏狀態的警示數量。警示可透過靜音或抑制來隱藏。

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

UnprocessedAlerts

AWS/Usage

每個工作區處於未處理狀態的警示數量。一旦收到提醒,提醒即處於未處理狀態 AlertManager,但正在等待下一個彙總群組評估。

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

AllAlerts

AWS/Usage

每個工作區處於任何狀態的警示數量。

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerAlertsReceived

-

AWS/Prometheus

提醒管理員收到的成功提醒總數

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerNotificationsFailed

-

AWS/Prometheus

失敗警示傳送數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerNotificationsThrottled

-

AWS/Prometheus

限流的警示數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

DiscardedSamples*

-

AWS/Prometheus

按原因排列的廢棄範例數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

QuerySamplesProcessed

-

AWS/Prometheus

處理的查詢範例速率

單位:每秒計數

有效統計資訊:平均數、下限、上限、總和

RuleEvaluations

-

AWS/Prometheus

規則評估總數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleEvaluationFailures

-

AWS/Prometheus

間隔中的規則評估失敗次數

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleGroupIterationsMissed

-

AWS/Prometheus

間隔中缺少的規則群組迭代次數。

單位:計數

有效統計資訊:平均數、下限、上限、總和

* 導致捨棄範例的某些原因如下。

原因

意義

greater_than_max_sample_age

捨棄超過一小時的樣本。

new-value-for-timestamp

重複的樣本會以與先前記錄不同的時間戳記傳送。

per_metric_series_limit

使用者已達到每個指標的作用中系列限制。

per_user_series_limit

使用者已達到作用中系列限制的總數。

rate_limited

擷取速率受限。

sample-out-of-order

範例會按順序傳送,且無法處理。

label_value_too_long

標籤值超過允許的字元限制。

max_label_names_per_series

使用者已達到每個指標的標籤名稱。

missing_metric_name

未提供指標名稱。

metric_name_invalid

提供的指標名稱無效。

label_invalid

提供的標籤無效。

duplicate_label_names

提供的標籤名稱重複。

注意

不存在或遺漏的指標與該指標為 0 的值相同。

注意

RuleGroupIterationsMissedRuleEvaluations、和 RuleEvaluationFailures 具有下列結構的 RuleGroup 維度:

RuleGroupNamespace;RuleGroup

在 Prometheus vended 指標上設定 CloudWatch 警示

您可以使用 CloudWatch 警示監控 Prometheus 資源的使用情況。

在 Prometheus ActiveSeries中設定 數量的警示
  1. 選擇圖形化指標索引標籤,然後向下捲動至ActiveSeries標籤。

    圖形化指標檢視中,只會顯示目前擷取的指標。

  2. 動作欄中選擇通知圖示。

  3. 指定指標和條件中,於條件值欄位中輸入門檻值條件,然後選擇下一步

  4. 設定動作中,選取現有SNS主題或建立新的SNS主題以傳送通知。

  5. 新增名稱和說明中,新增警示名稱和選用說明。

  6. 選擇 Create alarm (建立警示)。