本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
有关 Amazon Managed Service for Prometheus 中高可用性配置常见问题的解答
我是否应该将值 __replica__ 包含在另一个标签中以跟踪采样点?
在高可用性设置中,Amazon Managed Service for Prometheus 通过在 Prometheus 实例集群中选出领导来确保数据样本不会重复。如果领导副本在 30 秒内停止发送数据样本,则 Amazon Managed Service for Prometheus 会自动将另一个 Prometheus 实例设置为领导副本,并从新领导那里摄取数据,包括任何丢失的数据。因此,答案是否定的,不建议这样做。 这样做可能会导致以下问题:
-
在选择新领导期间,在 PromQL 中查询
count
返回的值可能会高于预期值。 -
在选择新领导期间,
active series
数增加了,达到了active series limits
。有关更多信息,请参阅 AMP 配额。
Kubernetes 似乎有自己的 cluster 标签,而且没有对我的指标进行重复数据删除。如何修复此问题?
Kubernetes 1.28 中引入了一个带有 cluster
标签的新指标 apiserver_storage_size_bytes
。这会导致 Amazon Managed Service for Prometheus 中的重复数据删除功能出现问题,这取决于 cluster
标签。在 Kubernetes 1.3 中,该标签重命名为 storage-cluster_id
(在 1.28 和 1.29 的后续补丁中也进行了重命名)。如果您的集群发出带有 cluster
标签的指标,则 Amazon Managed Service for Prometheus 无法对关联的时间序列进行重复数据删除。我们建议您将 Kubernetes 集群升级到最新的补丁版本,以避免出现此问题。或者,您也可以在 apiserver_storage_size_bytes
指标上重新标记 cluster
标签,然后再将其摄取到 Amazon Managed Service for Prometheus。
注意
有关 Kubernetes 变更的更多详细信息,请参阅 Kubernetes 项目中的 apiserver_storage_size_bytes 指标将标签集群重命名为 storage_cluster_