本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
以下两个部分介绍了与 Amazon Managed Service for Prometheus 相关的配额和限制。
服务配额
Amazon Managed Service for Prometheus 的限额如下。适用于 Prometheus 的亚马逊托管服务提供使用率指标来监控 Prometheu CloudWatch s 的资源使用情况。使用 CloudWatch 使用情况指标警报功能,您可以监控 Prometheus 的资源和使用情况,以防止出现限制错误。
随着项目和工作区的增长,可能需要监控或请求增加的最常见配额是:每个工作区的活动序列、每个工作区的摄取率和每个工作区的摄取突增大小。
对于所有可调整配额,您可以通过选择可调整列中的链接或通过请求增加限额
每个工作区的活跃系列限制是动态应用的。有关更多信息,请参阅 默认活跃系列。每个工作区的摄取率和每个工作区的摄取突增大小共同控制着将数据摄取到工作区的速度。有关更多信息,请参阅摄取节流。
注意
除非另有说明,否则这些限额适用于每个工作区。
名称 | 默认值 | 可调整 | 描述 |
---|---|---|---|
每个工作区具有元数据的活动指标 | 每个受支持的区域:2 万个 | 否 | 每个工作区具有元数据的独特活动指标数量。注:如果达到限制,则会记录指标样本,但会丢弃超过限制的元数据。 |
每个工作区的活跃系列数 | 每个受支持的区域:每 2 小时 1,000 万个 | 是 |
每个工作区的独特活动序列数。如果在过去 2 小时内报告了样本,则该序列处于活动状态。2M 到 10M 的容量会自动根据最近 30 分钟的使用情况进行调整。 |
警报管理器定义文件中的警报聚合组大小 | 每个受支持的区域:1000 个 | 是 |
警报管理器定义文件中的警报聚合组的最大大小。group_by 的每个标签值组合都会创建一个聚合组。 |
警报管理器定义文件大小 | 每个受支持的区域:1MB | 否 | 警报管理器定义文件的最大大小。 |
警报管理器中的警报有效载荷大小 | 每个受支持的区域:20 MB | 否 | 每个工作区中所有警报管理器警报的最大警报有效载荷大小。警报大小取决于标签和注释。 |
警报管理器中的警报 | 每个受支持的区域:1,000 个 | 是 |
每个工作区中并发警报管理器警报的最大数量。 |
HA 追踪器集群 | 每个受支持的区域:500 个 | 否 | HA Tracker 将针对每个工作区摄取样本所跟踪的最大集群数。 |
每个工作区的摄取突增大小 | 每个受支持的区域:100 万个 | 是 |
每个工作区每秒可以在一次突增中摄取的最大样本数。 |
每个工作区的摄取率 | 每个受支持的区域:170,000 | 是 |
每个工作区每秒的指标样本摄取率。 |
警报管理器定义文件中的抑制规则 | 每个受支持的区域:100 个 | 是 |
警报管理器定义文件中最大的抑制规则数。 |
标签大小 | 每个受支持的区域:7 KB | 否 | 一个序列接受的所有标签和标签值的最大组合大小。 |
每个指标系列的标签数 | 每个受支持的区域:70 个 | 是 |
每个指标序列的标签数。 |
元数据长度 | 每个受支持的区域:1 KB | 否 | 指标元数据接受的最大长度。元数据指的是指标名称、类型、单位和帮助文本。 |
每个指标的元数据 | 每个受支持的区域:10 个 | 否 | 每个指标的元数据数 |
警报管理器路由树中的节点 | 每个受支持的区域:100 个 | 是 |
警报管理器路由树中的最大节点数。 |
每个区域的 API 操作数(以每秒事务数为单位) | 每个受支持的区域:10 个 | 是 |
每个区域每秒可执行的 API 操作的最大数量。这包括工作空间 CRUD APIs、标记 APIs、规则组命名空间 CRUD 和警报管理器 APIs定义 CRUD。 APIs |
每个工作空间的 GetSeries、 GetLabels 和 GetMetricMetadata API 操作数(以每秒事务数为单位) | 每个受支持的区域:10 个 | 否 | 每个工作空间每秒的最大数量 GetSeries GetLabels 和 GetMetricMetadata 兼容 Prometheus 的 API 操作。 |
每个工作空间的 QueryMetrics API 操作数(以每秒事务数为单位) | 每个受支持的区域:300 个 | 否 | 每个工作空间每秒可执行的最大 QueryMetrics 兼容 Prometheus 的 API 操作数。 |
每个工作空间的 RemoteWrite API 操作数(以每秒事务数为单位) | 每个受支持的区域:3000 个 | 否 | 每个工作空间每秒可执行的最大 RemoteWrite 兼容 Prometheus 的 API 操作数。 |
每个工作区中与 Prometheus 兼容的其他 API 操作数(以每秒事务数为单位) | 每个受支持的区域:100 个 | 否 | 所有其他兼容 Prometheus 的工作区每秒的最大 API 操作数, APIs 包括、等 ListAlerts ListRules |
即时查询的查询字节数 | 每个受支持的区域:5 GB | 否 | 单次即时查询可扫描 750 MB。 |
范围查询的查询字节数 | 每个受支持的区域:5 GB | 否 | 单个范围查询中每 24 小时能扫描的最大字节数。 |
已提取的查询区块 | 每个受支持的区域:2000 万个 | 否 | 单个查询期间可以扫描的最大区块数。 |
查询样本 | 每个受支持的区域:5000 万个 | 否 | 单个查询期间可以扫描的最大样本数。 |
已提取的查询序列 | 每个受支持的区域:1,200 万个 | 否 | 单个查询期间可以扫描的最大序列数。 |
查询时间范围(以天为单位) | 每个受支持的区域:32 个 | 否 | QueryMetrics、 GetSeries和的最大时间范围 GetLabels APIs。 |
请求大小 | 每个受支持的区域:1MB | 否 | 摄取或查询的最大请求大小。 |
摄取数据的保留时间(以天为单位) | 每个受支持的区域:150 个 | 是 |
数据在工作区的保留天数。早于此期限的数据将被删除。您可以请求更改配额以增加或减少该值。 |
规则评估间隔 | 每个受支持的区域:30 秒 | 是 |
最小规则评估间隔。 |
规则组命名空间定义文件大小 | 每个受支持的区域:1MB | 否 | 一个规则组命名空间定义文件的最大大小。 |
每个工作区的规则数 | 每个受支持的区域:2,000 个 | 是 |
每个工作区的最大规则数。 |
警报管理器定义文件中的模板数 | 每个受支持的区域:100 个 | 是 |
警报管理器定义文件中的最大模板数。 |
每个账户每个区域的工作区数 | 每个受支持的区域:25 个 | 是 |
每个区域的工作区最大数。 |
默认活跃系列
默认情况下,Amazon Managed Service for Prometheus 允许您最多使用活跃时间序列的配额。
Amazon Managed Service for Prometheus 工作区会自动根据您的摄取量进行调整。随着使用量的增加,Amazon Managed Service for Prometheus 将自动增加您的时间序列容量,使您的基准使用量翻一番,直至达到默认配额。例如,如果过去 30 分钟的平均活跃时间序列为 350 万,则可以使用多达 700 万个时间序列而不受限制。
如果您需要的容量超过之前基准的两倍,Amazon Managed Service for Prometheus 会随着您摄取量的增加自动分配更多容量,以便确保您的工作负载不会经历持续限制,不超过您的配额。但是,如果您过去 30 分钟超出先前基准值的两倍,则可能发生限制。为避免限制,Amazon Managed Service for Prometheus 建议在增加到之前活跃时间序列的两倍以上时,逐渐增加摄取量。
注意
活动时间序列的最小容量为 200 万,当您的序列少于 200 万时没有限制。
要超出其默认配额,您可以请求增加限额。
摄取节流
Amazon Managed Service for Prometheus 会根据您当前的限制对每个工作区的摄取量进行节流。这有助于保持工作区的性能。如果你超过了限制,你将在 CloudWatch 指标DiscardedSamples
中看到(并附上rate_limited
原因)。您可以使用 Amazon CloudWatch 监控您的摄取量,并创建警报,在接近限制限制时向您发出警报。有关更多信息,请参阅 使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源。
Amazon Managed Service for Prometheus 使用令牌存储桶算法
每摄取一个数据样本,就会从存储桶中移除一个令牌。如果您的存储桶大小(每个工作区的摄取突增大小)为 1,000,000,那么您的工作区可以在一秒钟内摄取一百万个数据样本。如果要摄取的样本超过一百万个,就会被节流,不再摄取任何记录。其他数据样本将被丢弃。
存储桶会以设定的速率自动重填。如果存储桶的容量低于其最大容量,则每秒都会向其添加一定数量的令牌,直到其达到最大容量。如果重填令牌到达时存储桶已满,令牌就会被丢弃。存储桶中的令牌数量不能超过其最大数量。样本摄取的重填速率由每个工作区的摄取速率限制来设置。如果将每个工作区的摄取速率设置为 170,000,则存储桶的重填速率为每秒 170,000 个令牌。
如果您的工作区在一秒钟内摄取 1,000,000 个数据样本,您的存储桶就会立即缩减为零令牌。然后,存储桶中每秒重填 170,000 个令牌,直至达到其 1,000,000 个令牌的最大容量。如果不再进行摄取,则之前空的存储桶将在 6 秒钟内恢复到最大容量。
注意
摄取以批处理请求的方式进行。如果您有 100 个可用令牌,却发送了包含 101 个样本的请求,那么整个请求都会被拒绝。Amazon Managed Service for Prometheus 不部分接受请求。如果您正在编写收集器,则可以管理重试(使用较小的批次或在一段时间后重试)。
在工作区摄取更多数据样本之前,您无需等待存储桶填满。您可以在令牌被添加到存储桶时使用这些令牌。如果您立即使用重填令牌,存储桶就不会达到最大容量。例如,如果您耗尽了存储桶,您可以继续每秒摄取 170,000 个数据样本。只有当每秒摄取的数据样本少于 170,000 个时,存储桶才能重填到最大容量。
摄取数据的额外限制
Amazon Managed Service for Prometheus 对摄取到工作区的数据有以下额外要求。这些不可调整。
-
超过 1 小时的指标样本会拒绝摄取。
-
每个样本和元数据都必须有一个指标名称。