有关 Amazon Managed Service for Prometheus 中高可用性配置常见问题的解答 - Amazon Managed Service for Prometheus

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有关 Amazon Managed Service for Prometheus 中高可用性配置常见问题的解答

我是否应该将值 __replica__ 包含在另一个标签中以跟踪采样点?

在高可用性设置中,Amazon Managed Service for Prometheus 通过在 Prometheus 实例集群中选出领导来确保数据样本不会重复。如果领导副本在 30 秒内停止发送数据样本,则 Amazon Managed Service for Prometheus 会自动将另一个 Prometheus 实例设置为领导副本,并从新领导那里摄取数据,包括任何丢失的数据。因此,答案是否定的,不建议这样做。 这样做可能会导致以下问题:

  • 在选择新领导期间,在 PromQL 中查询 count 返回的值可能会高于预期值。

  • 在选择新领导期间,active series 数增加了,达到了 active series limits。有关更多信息,请参阅 AMP 配额

Kubernetes 似乎有自己的 cluster 标签,而且没有对我的指标进行重复数据删除。如何修复此问题?

Kubernetes 1.28 中引入了一个带有 cluster 标签的新指标 apiserver_storage_size_bytes。这会导致 Amazon Managed Service for Prometheus 中的重复数据删除功能出现问题,这取决于 cluster 标签。在 Kubernetes 1.3 中,该标签重命名为 storage-cluster_id(在 1.28 和 1.29 的后续补丁中也进行了重命名)。如果您的集群发出带有 cluster 标签的指标,则 Amazon Managed Service for Prometheus 无法对关联的时间序列进行重复数据删除。我们建议您将 Kubernetes 集群升级到最新的补丁版本,以避免出现此问题。或者,您也可以在 apiserver_storage_size_bytes 指标上重新标记 cluster 标签,然后再将其摄取到 Amazon Managed Service for Prometheus。

注意

有关 Kubernetes 变更的更多详细信息,请参阅 Kubernetes 项目中的 apiserver_storage_size_bytes 指标将标签集群重命名为 storage_cluster_ id。 GitHub