本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Managed Service for Prometheus 服务配额
以下两个部分介绍了与 Amazon Managed Service for Prometheus 相关的配额和限制。
服务限额
Amazon Managed Service for Prometheus 的限额如下。适用于 Prometheus 的亚马逊托管服务提供使用率指标来监控 Prometheu CloudWatch s 的资源使用情况。使用 CloudWatch 使用情况指标警报功能,您可以监控 Prometheus 的资源和使用情况,以防止出现限制错误。
随着项目和工作区的增长,可能需要监控或请求增加的最常见配额是:每个工作区的活动序列、每个工作区的摄取率和每个工作区的摄取突增大小。
对于所有可调整配额,您可以通过选择可调整列中的链接或通过请求增加限额
每个工作区的活跃系列限制是动态应用的。有关更多信息,请参阅 默认活跃系列。每个工作空间的摄取速率和每个工作空间的摄取突发大小共同控制了将数据采集到工作空间的速度。有关更多信息,请参阅限制摄入量。
注意
除非另有说明,否则这些限额适用于每个工作区。
名称 | 默认值 | 可调整 | 描述 |
---|---|---|---|
每个工作区具有元数据的活动指标 | 每个受支持的区域:2 万个 | 否 | 每个工作区具有元数据的独特活动指标数量。注意:如果达到限制,则会记录指标样本,但超过该限制的元数据将被删除。 |
每个工作区的活跃系列数 | 每个受支持的区域:每 2 小时 1,000 万个 | 是 |
每个工作区的独特活动序列数。如果在过去 2 小时内报告了样本,则该序列处于活动状态。2M 到 10M 的容量会自动根据最近 30 分钟的使用情况进行调整。 |
警报管理器定义文件中的警报聚合组大小 | 每个受支持的区域:1000 个 | 是 |
警报管理器定义文件中的警报聚合组的最大大小。group_by 的每个标签值组合都会创建一个聚合组。 |
警报管理器定义文件大小 | 每个受支持的区域:1MB | 否 | 警报管理器定义文件的最大大小。 |
警报管理器中的警报有效载荷大小 | 每个受支持的区域:20 MB | 否 | 每个工作区所有警报管理器警报的最大警报负载大小。警报大小取决于标签和注释。 |
警报管理器中的警报 | 每个受支持的区域:1,000 个 | 是 |
每个工作区并发警报管理器警报的最大数量。 |
HA 追踪器集群 | 每个受支持的区域:500 个 | 否 | HA Tracker 将针对每个工作区摄取样本所跟踪的最大集群数。 |
每个工作区的摄取突增大小 | 每个受支持的区域:100 万个 | 是 |
每个工作区每秒可以在一次突增中摄取的最大样本数。 |
每个工作区的摄取率 | 每个受支持的区域:170,000 | 是 |
每个工作区每秒的指标样本摄取率。 |
警报管理器定义文件中的抑制规则 | 每个受支持的区域:100 个 | 是 |
警报管理器定义文件中最大的抑制规则数。 |
标签大小 | 每个受支持的区域:7 KB | 否 | 一个序列接受的所有标签和标签值的最大组合大小。 |
每个指标系列的标签数 | 每个受支持的区域:70 个 | 是 |
每个指标序列的标签数。 |
元数据长度 | 每个受支持的区域:1 KB | 否 | 指标元数据接受的最大长度。元数据是指指标名称、类型、单位和帮助文本。 |
每个指标的元数据 | 每个受支持的区域:10 个 | 否 | 每个指标的元数据数 |
警报管理器路由树中的节点 | 每个受支持的区域:100 个 | 是 |
警报管理器路由树中的最大节点数。 |
每个区域的API操作数(每秒事务数) | 每个受支持的区域:10 个 | 是 |
每个区域每秒的最大API操作数。这包括工作空间CRUDAPIs、标记APIs、规则组命名空间CRUDAPIs和警报管理器定义CRUDAPIs。 |
每个工作空间的 GetSeries数量 GetLabels 和 GetMetricMetadata API操作数(以每秒事务数为单位) | 每个受支持的区域:10 个 | 否 | 每个工作区每秒的最大操作数 GetSeries GetLabels 和与 GetMetricMetadata Prometheus 兼容的API操作。 |
每个工作空间的 QueryMetrics API操作数(以每秒事务数为单位) | 每个受支持的区域:300 个 | 否 | 每个工作区每秒钟与 QueryMetrics Prometheus 兼容的最大API操作数。 |
每个工作空间的 RemoteWrite API操作数(以每秒事务数为单位) | 每个受支持的区域:3000 个 | 否 | 每个工作区每秒钟与 RemoteWrite Prometheus 兼容的最大API操作数。 |
每个工作空间的其他兼容 Prometheus 的API操作数(以每秒事务数为单位) | 每个受支持的区域:100 个 | 否 | 所有其他兼容 Prometheus 的工作区每秒的最大API操作数,APIs包括、等 ListAlerts。 ListRules |
即时查询的查询字节数 | 每个受支持的区域:5 GB | 否 | 一次即时查询即可扫描 750MB。 |
范围查询的查询字节数 | 每个受支持的区域:5 GB | 否 | 单个范围查询中每 24 小时能扫描的最大字节数。 |
已提取的查询区块 | 每个受支持的区域:2000 万个 | 否 | 单个查询期间可以扫描的最大区块数。 |
查询样本 | 每个受支持的区域:5000 万个 | 否 | 单个查询期间可以扫描的最大样本数。 |
已提取的查询序列 | 每个受支持的区域:1,200 万个 | 否 | 单个查询期间可以扫描的最大序列数。 |
查询时间范围(以天为单位) | 每个受支持的区域:32 个 | 否 | QueryMetrics、 GetSeries和的最大时间范围 GetLabels APIs。 |
请求大小 | 每个受支持的区域:1MB | 否 | 摄取或查询的最大请求大小。 |
摄取数据的保留时间(以天为单位) | 每个受支持的区域:150 个 | 是 |
数据在工作区的保留天数。早于此期限的数据将被删除。您可以请求更改配额以增加或减少该值。 |
规则评估间隔 | 每个受支持的区域:30 秒 | 是 |
最小规则评估间隔。 |
规则组命名空间定义文件大小 | 每个受支持的区域:1MB | 否 | 一个规则组命名空间定义文件的最大大小。 |
每个工作区的规则数 | 每个受支持的区域:2,000 个 | 是 |
每个工作区的最大规则数。 |
警报管理器定义文件中的模板数 | 每个受支持的区域:100 个 | 是 |
警报管理器定义文件中的最大模板数。 |
每个账户每个区域的工作区数 | 每个受支持的区域:25 个 | 是 |
每个区域的工作区最大数。 |
默认活跃系列
默认情况下,Amazon Managed Service for Prometheus 允许您最多使用活跃时间序列的配额。
Amazon Managed Service for Prometheus 工作区会自动根据您的摄取量进行调整。随着使用量的增加,Amazon Managed Service for Prometheus 将自动增加您的时间序列容量,使您的基准使用量翻一番,直至达到默认配额。例如,如果过去 30 分钟的平均活跃时间序列为 350 万,则可以使用多达 700 万个时间序列而不受限制。
如果您需要的容量超过之前基准的两倍,Amazon Managed Service for Prometheus 会随着您摄取量的增加自动分配更多容量,以便确保您的工作负载不会经历持续限制,不超过您的配额。但是,如果您过去 30 分钟超出先前基准值的两倍,则可能发生限制。为避免限制,Amazon Managed Service for Prometheus 建议在增加到之前活跃时间序列的两倍以上时,逐渐增加摄取量。
注意
活动时间序列的最小容量为 200 万,当您的序列少于 200 万时没有限制。
要超出其默认配额,您可以请求增加限额。
限制摄入量
适用于 Prometheus 的亚马逊托管服务会根据您当前的限制限制每个工作空间的摄取量。这有助于保持工作空间的性能。如果你超过了限制,你将在 CloudWatch 指标DiscardedSamples
中看到(并附上rate_limited
原因)。您可以使用 Amazon CloudWatch 监控您的摄取量,并创建警报,在接近限制限制时向您发出警报。有关更多信息,请参阅 使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源。
适用于 Prometheus 的亚马逊托管服务使用令牌存储桶算法来实现摄
采集的每个数据样本都会从存储桶中移除一个令牌。如果您的存储桶大小(每个工作空间的摄取突发大小)为 1,000,000,则您的工作空间可以在一秒钟内采集 100 万个数据样本。如果要摄取的样本超过一百万,它将受到限制,并且不会再摄取任何记录。其他数据样本将被丢弃。
存储桶会按设定的速率自动填充。如果存储桶低于其最大容量,则每秒向其添加一定数量的令牌,直到其达到最大容量。如果充值令牌到达时桶已满,则它们将被丢弃。存储桶容纳的代币数量不能超过其最大数量。样本摄取的补充速率由每个工作空间的摄取速率限制来设置。如果将每个工作空间的摄取率设置为 170,000,则存储桶的充值速率为每秒 170,000 个代币。
如果您的工作空间在一秒钟内提取了 1,000,000 个数据样本,则您的存储桶会立即减少到零令牌。然后,该存储桶每秒充满 170,000 个代币,直到其最大容量达到 1,000,000 个代币。如果不再进行摄取,则之前空的存储桶将在 6 秒钟内恢复到其最大容量。
注意
摄取发生在批处理请求中。如果您有 100 个可用代币,并且发送了包含 101 个样本的请求,则整个请求都将被拒绝。亚马逊 Prometheus 托管服务不接受部分请求。如果您正在编写收集器,则可以管理重试(使用较小的批次或经过一段时间后)。
您无需等到存储桶已满之后您的工作空间就可以采集更多数据样本。您可以在令牌被添加到存储桶时使用这些令牌。如果您立即使用充值令牌,则存储桶无法达到其最大容量。例如,如果您耗尽存储桶,则可以继续每秒采集 170,000 个数据样本。只有当您每秒采集的数据样本少于 170,000 时,存储桶才能重新填充到最大容量。
摄取数据的额外限制
Amazon Managed Service for Prometheus 对摄取到工作区的数据有以下额外要求。这些不可调整。
-
超过 1 小时的指标样本会拒绝摄取。
-
每个样本和元数据都必须有一个指标名称。