適用於 Prometheus 的 Amazon 受管服務中高可用性組態的常見問題解答 - Amazon Managed Service for Prometheus

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

適用於 Prometheus 的 Amazon 受管服務中高可用性組態的常見問題解答

我是否應該將值 __replica__ 包含到另一個標籤中以跟踪樣本點?

在高可用性設定中,Amazon Managed Service for Prometheus 可透過選擇 Prometheus 執行個體叢集中的領導者,以確保資料範例不會重複。若領導者複本停止傳送資料範例 30 秒,Amazon Managed Service for Prometheus 會自動將另一個 Prometheus 執行個體設為領導者複本,並從新領導者擷取資料,包括任何遺漏的資料。因此,答案為否,不建議執行。 這樣做可能會導致以下問題:

  • 在選舉新領導者的期間,在 PromQL 中查詢 count 可能會傳回高於預期的值。

  • 在選舉新領導者期間增加的 active series 數量,這會到達 active series limits。如需詳細資訊,請參閱AMP配額

Kubernetes 似乎有它自己的集群標籤,並且不會刪除重複我的指標。我要如何修正這個情形?

在 Kubernetes 1.28 中引入apiserver_storage_size_bytes了一個新的量度,並帶有標籤。cluster這可能會導致 Prometheus 的 Amazon 受管服務中的重複資料刪除問題,這取決於標籤。cluster在 Kubernetes 1.3 中,標籤會重新命名為 storage-cluster_id (此標籤也會在稍後的 1.28 和 1.29 修補程式中重新命名)。如果您的叢集使用標籤發出此指cluster標,Prometheus 的 Amazon 受管服務無法刪除相關的時間序列。建議您將 Kubernetes 叢集升級至最新的修補版本,以避免發生此問題。或者,您可以在apiserver_storage_size_bytes指標上重新標記標cluster籤,然後再將其導入 Prometheus 的 Amazon 受管服務。

注意

如需有關變更至 Kubernetes 的詳細資訊,請參閱在 Kubernetes 專案中將標籤叢集重新命名為 Storage_cluster_id。 GitHub