Amazon Managed Service for Prometheus 服务配额 - Amazon Managed Service for Prometheus

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Managed Service for Prometheus 服务配额

以下两个部分介绍了与 Amazon Managed Service for Prometheus 相关的配额和限制。

服务限额

Amazon Managed Service for Prometheus 的限额如下。适用于 Prometheus 的亚马逊托管服务提供使用率指标来监控 Prometheu CloudWatch s 的资源使用情况。使用 CloudWatch 使用情况指标警报功能,您可以监控 Prometheus 的资源和使用情况,以防止出现限制错误。

随着项目和工作区的增长,可能需要监控或请求增加的最常见配额是:每个工作区的活动序列每个工作区的摄取率每个工作区的摄取突增大小

对于所有可调整配额,您可以通过选择可调整列中的链接或通过请求增加限额来请求增加限额。

每个工作区的活跃系列限制是动态应用的。有关更多信息,请参阅 默认活跃系列。每个工作空间的摄取速率和每个工作空间摄取突发大小共同控制了将数据采集到工作空间的速度。有关更多信息,请参阅 限制摄入量

注意

除非另有说明,否则这些限额适用于每个工作区。

名称 默认值 可调整 描述
每个工作区具有元数据的活动指标 每个受支持的区域:2 万个 每个工作区具有元数据的独特活动指标数量。
每个工作区的活跃系列数 每个受支持的区域:每 2 小时 1,000 万个 每个工作区的独特活动序列数。如果在过去 2 小时内报告了样本,则该序列处于活动状态。2M 到 10M 的容量会自动根据最近 30 分钟的使用情况进行调整。
警报管理器定义文件中的警报聚合组大小 每个受支持的区域:1000 个 警报管理器定义文件中的警报聚合组的最大大小。group_by 的每个标签值组合都会创建一个聚合组。
警报管理器定义文件大小 每个受支持的区域:1MB 警报管理器定义文件的最大大小。
警报管理器中的警报有效载荷大小 每个受支持的区域:20 MB 每个工作区所有警报管理器警报的最大警报负载大小。警报大小取决于标签和注释。
警报管理器中的警报 每个受支持的区域:1,000 个 每个工作区并发警报管理器警报的最大数量。
HA 追踪器集群 每个受支持的区域:500 个 HA Tracker 将针对每个工作区摄取样本所跟踪的最大集群数。
每个工作区的摄取突增大小 每个受支持的区域:100 万个 每个工作区每秒可以在一次突增中摄取的最大样本数。
每个工作区的摄取率 每个受支持的区域:170,000 每个工作区每秒的指标样本摄取率。
警报管理器定义文件中的抑制规则 每个受支持的区域:100 个 警报管理器定义文件中最大的抑制规则数。
标签大小 每个受支持的区域:7 KB 一个序列接受的所有标签和标签值的最大组合大小。
每个指标系列的标签数 每个受支持的区域:70 个 每个指标序列的标签数。
元数据长度 每个受支持的区域:1 KB 指标元数据接受的最大长度。元数据是指指标名称、HELP 和 UNIT。
每个指标的元数据 每个受支持的区域:10 个 每个指标的元数据数
警报管理器路由树中的节点 每个受支持的区域:100 个 警报管理器路由树中的最大节点数。
每个区域的 API 操作数(每秒事务数) 每个受支持的区域:10 个 所有适用于 Prometheus 的亚马逊托管服务 API(包括工作空间 CRUD API、标记 API、规则组命名空间 CRUD API 和警报管理器定义 CRUD API 和警报管理器定义 CRUD API)每区域每秒执行的最大 API 操作数。
每个工作空间的 GetSeries、 GetLabels 和 GetMetricMetadata API 操作数(以每秒事务数为单位) 每个受支持的区域:10 个 每个工作空间每秒的最大数量 GetSeries GetLabels 和 GetMetricMetadata 兼容 Prometheus 的 API 操作。
每个工作空间的 QueryMetrics API 操作数(以每秒事务数为单位) 每个受支持的区域:300 个 每个工作空间每秒可执行的最大 QueryMetrics 兼容 Prometheus 的 API 操作数。
每个工作空间的 RemoteWrite API 操作数(以每秒事务数为单位) 每个受支持的区域:3000 个 每个工作空间每秒可执行的最大 RemoteWrite 兼容 Prometheus 的 API 操作数。
每个工作空间的其他兼容 Prometheus 的 API 操作数(以每秒事务数为单位) 每个受支持的区域:100 个 所有其他兼容 Prometheus 的 API(包括 ListAlerts、等)的每个工作区每秒钟的最大 API 操作数 ListRules
即时查询的查询字节数 每个受支持的区域:5 GB 单个即时查询能扫描的最大字节数
范围查询的查询字节数 每个受支持的区域:5 GB 单个范围查询中每 24 小时能扫描的最大字节数。
已提取的查询区块 每个受支持的区域:2000 万个 单个查询期间可以扫描的最大区块数。
查询样本 每个受支持的区域:5000 万个 单个查询期间可以扫描的最大样本数。
已提取的查询序列 每个受支持的区域:1,200 万个 单个查询期间可以扫描的最大序列数。
查询时间范围(以天为单位) 每个受支持的区域:32 个 QueryMetrics、 GetSeries和 GetLabels API 的最大时间范围。
请求大小 每个受支持的区域:1MB 摄取或查询的最大请求大小。
摄取数据的保留时间(以天为单位) 每个受支持的区域:150 个 数据在工作区的保留天数。早于此期限的数据将被删除。您可以请求更改配额以增加或减少该值。
规则评估间隔 每个受支持的区域:30 秒 每个工作区中一个规则组的最小规则评估间隔。
规则组命名空间定义文件大小 每个受支持的区域:1MB 一个规则组命名空间定义文件的最大大小。
每个工作区的规则数 每个受支持的区域:2,000 个 每个工作区的最大规则数。
警报管理器定义文件中的模板数 每个受支持的区域:100 个 警报管理器定义文件中的最大模板数。
每个账户每个区域的工作区数 每个受支持的区域:25 个 每个区域的工作区最大数。

默认活跃系列

默认情况下,Amazon Managed Service for Prometheus 允许您最多使用活跃时间序列的配额。

Amazon Managed Service for Prometheus 工作区会自动根据您的摄取量进行调整。随着使用量的增加,Amazon Managed Service for Prometheus 将自动增加您的时间序列容量,使您的基准使用量翻一番,直至达到默认配额。例如,如果过去 30 分钟的平均活跃时间序列为 350 万,则可以使用多达 700 万个时间序列而不受限制。

如果您需要的容量超过之前基准的两倍,Amazon Managed Service for Prometheus 会随着您摄取量的增加自动分配更多容量,以便确保您的工作负载不会经历持续限制,不超过您的配额。但是,如果您过去 30 分钟超出先前基准值的两倍,则可能发生限制。为避免限制,Amazon Managed Service for Prometheus 建议在增加到之前活跃时间序列的两倍以上时,逐渐增加摄取量。

注意

活动时间序列的最小容量为 200 万,当您的序列少于 200 万时没有限制。

要超出其默认配额,您可以请求增加限额。

限制摄入量

适用于 Prometheus 的亚马逊托管服务会根据您当前的限制限制每个工作空间的摄取量。这有助于保持工作空间的性能。如果你超过了限制,你将在 CloudWatch 指标DiscardedSamples中看到(并附上rate_limited原因)。您可以使用 Amazon CloudWatch 监控您的摄取量,并创建警报,在接近限制限制时向您发出警报。有关更多信息,请参阅 使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源

适用于 Prometheus 的亚马逊托管服务使用令牌存储桶算法来实现摄取限制。使用此算法,您的账户拥有一个持有特定数量的令牌存储桶。存储桶中的代币数量代表您在任何给定秒钟的摄取限制。

采集的每个数据样本都会从存储桶中移除一个令牌。如果您的存储桶大小(每个工作空间的摄取突发大小)为 1,000,000,则您的工作空间可以在一秒钟内采集 100 万个数据样本。如果要摄取的样本超过一百万,它将受到限制,并且不会再摄取任何记录。其他数据样本将被丢弃。

存储桶会按设定的速率自动填充。如果存储桶低于其最大容量,则每秒向其添加一定数量的令牌,直到其达到最大容量。如果充值令牌到达时桶已满,则它们将被丢弃。存储桶容纳的代币数量不能超过其最大数量。样本摄取的补充速率由每个工作空间的摄取速率限制来设置。如果将每个工作空间的摄取率设置为 170,000,则存储桶的充值速率为每秒 170,000 个代币。

如果您的工作空间在一秒钟内提取了 1,000,000 个数据样本,则您的存储桶会立即减少到零令牌。然后,该存储桶每秒充满 170,000 个代币,直到其最大容量达到 1,000,000 个代币。如果不再进行摄取,则之前空的存储桶将在 6 秒钟内恢复到其最大容量。

注意

摄取发生在批处理请求中。如果您有 100 个可用代币,并且发送了包含 101 个样本的请求,则整个请求都将被拒绝。亚马逊 Prometheus 托管服务不接受部分请求。如果您正在编写收集器,则可以管理重试(使用较小的批次或经过一段时间后)。

您无需等到存储桶已满之后您的工作空间就可以采集更多数据样本。您可以在令牌被添加到存储桶时使用这些令牌。如果您立即使用充值令牌,则存储桶无法达到其最大容量。例如,如果您耗尽存储桶,则可以继续每秒采集 170,000 个数据样本。只有当您每秒采集的数据样本少于 170,000 时,存储桶才能重新填充到最大容量。

摄取数据的额外限制

Amazon Managed Service for Prometheus 对摄取到工作区的数据有以下额外要求。这些不可调整。

  • 超过 1 小时的指标样本会拒绝摄取。

  • 每个样本和元数据都必须有一个指标名称。