生产监控 - Amazon DynamoDB

生产监控

应该通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 DAX 性能的基准。监控 DAX 时,您应考虑存储历史监控数据。此存储数据将为您提供与当前性能数据进行比较的基准,确定正常性能模式和性能异常,以及设计解决问题的方法。

要建立基准,您应至少在负载测试期间和生产中监控以下各项。

  • CPU 使用率和限制的请求数,以便您可以确定是否可能需要在集群中使用较大的节点类型。可通过 CPUUtilization CloudWatch 指标获得集群的 CPU 使用率。该指标的平均统计数据提供了集群中所有节点的平均 CPU 利用率视图。在做出集群扩展决策时,建议您使用最大统计数据,即所有节点的最大利用率。

    注意

    AWS 提高了 CPUUtilization 指标的粒度。从 2024 年 5 月 17 日到 2024 年 6 月 22 日,您可能观察到该指标发生了变化。

  • 操作延迟(在客户端测量)应始终与应用程序的延迟要求保持一致。

  • 错误率应保持较低水平,如 ErrorRequestCountFaultRequestCountFailedRequestCount CloudWatch 指标中所示。

  • 网络字节消耗,这样您就可以确定是应该在集群中使用更多节点,还是应使用更大的节点类型。要监控消耗,您可以对 CloudWatch 中提供的 BaselineNetworkBytesInUtilizationBaselineNetworkBytesOutUtilization 指标设置提醒,这两个指标指示您的实例类型的可用网络带宽的消耗百分比(分别对应于入口流量和出口流量)。

  • 缓存内存利用率和驱逐的大小,以便您可以确定集群的节点类型是否有足够的内存来容纳工作集,如果没有,则切换到更大的节点类型。

    注意

    如果出现大量缓存未命中和写入,缓存内存利用率可能会增加到高达 100%,并可能导致可用性停机。

  • 客户端连接,以便您可以监控集群连接中任何无法解释的峰值。