监控你的 Lightsail 资源指标 - Amazon Lightsail

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控你的 Lightsail 资源指标

通过检查和收集指标数据,监控 Amazon Lightsail 中的实例、数据库、分配、负载均衡器、容器服务和存储桶的性能。建立一个时段内的基准,以便您能够配置告警,从而更轻松地检测有关资源性能的异常和问题。

Amazon Lightsail 报告实例、数据库、内容分发网络 (CDN) 分配、负载均衡器、容器服务和存储桶的指标数据。您可以在 Lightsail 控制台中查看和监控这些数据。监控是维护资源的可靠性、可用性和性能的重要环节。定期监控和收集资源中的指标数据,以便您能够更轻松地调试多点故障(如果发生)。

内容

有效地监控您的资源

您应为环境中的正常资源性能建立基准。在不同时间和不同负载条件下测量性能。在监控您的资源时,您应记下并记录一段时间内的资源性能的历史记录。将资源的当前性能与您收集到的历史数据进行比较。这将帮助您确定一般的性能模式和性能异常,并设计方法来解决它们。

例如,您可以监控实例的 CPU 利用率、网络使用率和状态检查。如果性能低于您所建立的基准,则您可能需要重新配置或优化实例以降低 CPU 使用率或减少网络流量。如果您的实例继续运行在 CPU 使用率阈值之上,则可能需要为实例切换到更大的套餐(使用每月 7 美元的套餐而不是每月 5 美元的套餐)。可以通过为实例创建一个新快照,然后使用更大的计划从该快照创建新的实例来切换到更大的计划。

建立基准后,您可以在 Lightsail 控制台中配置警报,以便在资源超过指定阈值时通知您。有关更多信息,请参阅通知警报

指标的概念和术语

以下术语和概念可帮助您更好地理解 Lightsail 中指标的用法。

指标

指标代表一个按时间顺序排列的数据点集。可将指标视为要监控的变量,而数据点代表该变量随时间变化的值。指标通过一个名称唯一定义。例如,Lightsail 提供的一些实例指标包括 CPU 利用率 (CPUUtilization)、传入网络流量 (NetworkIn) 和传出网络流量 (NetworkOut)。有关 Lightsail 中所有可用资源指标的更多信息,请参阅 Lightsail 中的可用指标

指标保留

时间段为 60 秒(1 分钟解析时间)的数据点可用 15 天。时间段为 300 秒(5 分钟解析时间)的数据点可用 63 天。时间段为 3600 秒(1 小时解析时间)的数据点可用 455 天(15 个月)。

最初以较短时间段提供的数据点汇总在一起,可实现长期存储。例如,具有 1 分钟粒度的数据点在 15 天内保持可用(1 分钟解析时间)。15 天之后,此数据仍可用,但汇总在一起,只能以 5 分钟的精度检索。63 天之后,数据进一步汇总,以 1 小时的精度提供。如果您需要超过这些时间段的指标可用性,则可以使用 Lightsail API、 AWS Command Line Interface (AWS CLI) 和 SDK 来检索离线存储或其他存储的数据点。

有关更多信息 GetInstanceMetricData,请参阅 Lightsail API 参考GetRelationalDatabaseMetricData中的GetBucketMetricDataGetLoadBalancerMetricDataGetDistributionMetricData、、、和。

统计数据

指标统计数据是在一段时间内聚合数据的方法。示例统计数据包括 AverageSumMaximum。例如,可以使用 Average 统计数据取实例 CPU 利用率指标数据的平均值,可以使用 Sum 统计数据添加数据库连接,可以使用 Maximum 统计数据检索最大负载均衡器响应时间,依此类推。

有关可用指标统计信息的列表,请参阅 Lightsail API 参考 GetRelationalDatabaseMetricData中的统计信息 GetLoadBalancerMetricData GetDistributionMetricData统计信息、统计数据和统计信息。 GetInstanceMetricData GetBucketMetricData

单位

所有统计数据都有度量单位。示例单位包括 BytesSecondsCountPercent有关单位的完整列表,请参阅 Lightsail API 参考 GetRelationalDatabaseMetricData中的单位 GetDistributionMetricData、单位和单位。 GetInstanceMetricData GetLoadBalancerMetricData

时间段

时间段是与特定数据点关联的时间长度,即返回的数据点的粒度。每个数据点代表在指定时间段内对收集的指标数据的聚合。时间段以秒为单位定义,时间段的有效值是 60 秒(1 分钟)和 300 秒(5 分钟)的任意倍数。

使用 Lightsail API 检索数据点时,您可以指定周期、开始时间和结束时间。这些参数决定了与数据点关联的时间的总长度。Lightsail 以 1 分钟或 5 分钟为增量报告指标数据;因此,您必须以 60 秒和 300 秒的倍数指定周期。您为开始时间和结束时间指定的值决定 Lightsail 返回的周期数。如果您想要以 10 分钟为一块来聚合统计信息,请指定时间段 600。对于一个完整小时内聚合的统计数据,请指定时间段 3600,依此类推。

时段对于 Lightsail 警报也很重要。Lightsail 每 5 分钟评估一次警报的数据点,警报的每个数据点代表 5 分钟的聚合数据周期。当您创建用于监控特定指标的警报时,您是在要求 Lightsail 将该指标与您指定的阈值进行比较。你可以广泛控制 Lightsail 如何进行这种比较。您可以指定进行比较的时间段,并且可以指定用于得出结论的评估时间段的数量。有关更多信息,请参阅警报

告警

告警将在指定时间段内监控单个指标,并在指标超过您指定的阈值时通知您。通知可以是显示在 Lightsail 控制台中的横幅、发送到您指定的电子邮件地址的电子邮件以及发送到您指定的手机号码的 SMS 短信。有关更多信息,请参阅警报

Lightsail 中提供的指标

实例指标

提供了以下实例指标。有关更多信息,请参阅在 Amazon Lightsail 中查看实例指标

  • CPU 利用率 (CPUUtilization) – 是当前正在实例上使用的已分配计算单位的百分率。此指标用于确定在实例上运行应用程序的处理能力。当未为实例分配完整的处理器内核时,操作系统中的工具显示的百分比可能低于 Lightsail。

    在 Lightsail 控制台中查看实例的 CPU 利用率指标图表时,您将看到可持续和可突发区域。有关这些区域的含义的更多信息,请参阅 CPU 利用率可持续区域和可突增区域

  • 容量暴增分钟数 (BurstCapacityTime) 和百分比 (BurstCapacityPercentage) – 容量暴增分钟数表示实例以 100% CPU 利用率暴增的可用时间。容量暴增百分比是您的实例可用的 CPU 性能百分比。您的实例会持续消耗和累积突增容量。仅当您的实例以 100% CPU 利用率运行时,容量暴增分钟数才会以全速率消耗。有关实例突增容量的更多信息,请参阅在 Amazon Lightsail 中查看实例突增容量

  • 传入网络流量 (NetworkIn) – 实例在所有网络接口上收到的字节数。此指标用于确定流向实例的传入网络流量。报告的数量是该期间内接收的字节数。由于此指标每 5 分钟报告一次,因此将报告的数量除以 300 来得出字节/秒。

  • 传出网络流量 (NetworkOut) – 实例在所有网络接口上发出的字节数。此指标用于确定来自实例的传出网络流量。报告的数字是该时间段内发送的字节数。由于此指标每 5 分钟报告一次,因此将报告的数量除以 300 来得出字节/秒。

  • 状态检查故障 (StatusCheckFailed) – 报告通过还是未通过实例状态检查和系统状态检查。此指标可以是 0(通过)或 1(失败)。此指标按 1 分钟一次的频率提供。

  • 实例状态检查故障 (StatusCheckFailed_Instance) – 报告实例通过还是未通过实例状态检查。此指标可以是 0(通过)或 1(失败)。此指标按 1 分钟一次的频率提供。

  • 系统状态检查故障 (StatusCheckFailed_System) – 报告实例通过还是未通过系统状态检查。此指标可以是 0(通过)或 1(失败)。此指标按 1 分钟一次的频率提供。

  • 没有令牌元数据请求 (MetadataNoToken) – 在没有令牌的情况下成功访问实例元数据服务的次数。该指标确定是否有任何进程正在使用实例元数据服务版本 1 访问实例元数据,但未使用令牌。如果所有请求都使用支持令牌的会话(如实例元数据服务版本 2),则该值为 0。有关更多信息,请参阅 Amazon Lightsail 中的实例元数据和用户数据

数据库指标

提供了以下数据库指标。有关更多信息,请参阅在 Amazon Lightsail 中查看数据库指标

  • CPU 利用率 (CPUUtilization) – 数据库当前使用的 CPU 利用率的百分比。

  • 数据库连接数 (DatabaseConnections) – 正在使用的数据库连接数。

  • 磁盘队列深度 (DiskQueueDepth) – 等待访问磁盘的未完成 IO(读取/写入请求)数。

  • 可用存储空间 (FreeStorageSpace) – 可用存储空间的大小。

  • 网络接收吞吐量 (NetworkReceiveThroughput) – 数据库的传入(接收)网络流量,包括客户数据库流量和用于监控和复制的 AWS 流量。

  • 网络传输吞吐量 (NetworkTransmitThroughput) – 数据库的传出(传输)网络流量,包括客户数据库流量和用于监控和复制的 AWS 流量。

分配指标

提供以下分配指标:有关更多信息,请参阅在 Amazon Lightsail 中查看配送指标

  • 请求数 (Requests) – 分配收到的查看器请求总数,针对所有 HTTP 方法以及 HTTP 和 HTTPS 请求。

  • 已上传的字节数 (BytesUploaded) – 分配使用 POST 和 PUT 请求上传到源的字节数。

  • 已下载的字节数 (BytesDownloaded) – 查看器针对 GET、HEAD 和 OPTIONS 请求下载的字节数。

  • 错误率总计 (TotalErrorRate) – 响应的 HTTP 状态代码为 4xx 或 5xx 的所有查看器请求所占的百分比。

  • HTTP 4xx 错误率 (4xxErrorRate) – 响应的 HTTP 状态代码为 4xx 的所有查看器请求所占的百分比。在这些情况下,客户端或客户端查看器可能出现了错误。例如,404(未找到)状态代码表示无法找到客户端请求的对象。

  • HTTP 5xx 错误率 (5xxErrorRate) – 响应的 HTTP 状态代码为 5xx 的所有查看器请求所占的百分比。在这些情况下,源服务器未满足请求。例如,503(服务不可用)状态代码表示源服务器当前不可用。

负载均衡器指标

提供了以下负载均衡器指标。有关更多信息,请参阅在 Amazon Lightsail 中查看负载均衡器指标

  • 正常主机计数 (HealthyHostCount) – 被视为正常运行的目标实例数。

  • 不正常主机计数 (UnhealthyHostCount) – 被视为未正常运行的目标实例数。

  • 负载均衡器 HTTP 4XX (HTTPCode_LB_4XX_Count) – 源自负载均衡器的 HTTP 4XX 客户端错误代码的数量。如果请求格式错误或不完整,则会生成客户端错误。目标实例未收到这些请求。该计数不包含目标实例生成的响应代码。

  • 负载均衡器 HTTP 5XX (HTTPCode_LB_5XX_Count) – 源自负载均衡器的 HTTP 5XX 服务器错误代码的数量。这不包含由目标实例生成的任何响应代码。如果没有运行正常的实例附加到负载均衡器,或者请求速率超过实例或负载均衡器的容量(溢出),则会报告该指标。

  • 实例 HTTP 2XX (HTTPCode_Instance_2XX_Count) – 由目标实例生成的 HTTP 2XX 响应代码数。它不包括负载均衡器生成的任何响应代码。

  • 实例 HTTP 3XX (HTTPCode_Instance_3XX_Count) – 由目标实例生成的 HTTP 3XX 响应代码数。它不包括负载均衡器生成的任何响应代码。

  • 实例 HTTP 4XX (HTTPCode_Instance_4XX_Count) – 由目标实例生成的 HTTP 4XX 响应代码数。它不包括负载均衡器生成的任何响应代码。

  • 实例 HTTP 5XX (HTTPCode_Instance_5XX_Count) – 由目标实例生成的 HTTP 5XX 响应代码数。它不包括负载均衡器生成的任何响应代码。

  • 实例响应时间 (InstanceResponseTime) – 从请求离开负载均衡器到从目标实例收到响应之间所用的时间(以秒为单位)。

  • 客户端 TLS 协商错误计数 (ClientTLSNegotiationErrorCount) – 由于负载均衡器生成 TLS 错误而未与负载均衡器建立会话的客户端发起的 TLS 连接数。可能的原因包括密码或协议不匹配。

  • 请求计数 (RequestCount) – 通过 IPv4 处理的请求的数量。该计数仅包含具有负载均衡器的目标实例生成的响应的请求。

  • 已被拒绝的连接计数 (RejectedConnectionCount) – 由于负载均衡器达到连接数上限被拒绝的连接的数量。

容器服务指标

提供以下容器服务指标:有关更多信息,请参阅查看容器服务指标

  • CPU 利用率 (CPUUtilization) – 容器服务的所有节点当前正在使用的计算单位的平均百分比。此指标标识在容器服务上运行容器所需的处理能力。

  • 内存利用率 (MemoryUtilization) – 容器服务的所有节点当前正在使用的内存的平均百分比。此指标确定在容器服务上运行容器所需的内存。

存储桶指标

提供以下存储桶指标 :有关更多信息,请参阅在 Amazon Lightsail 中查看存储桶指标

  • 存储桶大小 (BucketSizeBytes) – 桶中存储的数据量。此值通过汇总存储桶中所有对象(当前对象和非当前对象)的大小计算得出,包括所有向存储桶进行分段上传而未完成的所有部分的大小。

  • 对象的数量 (NumberOfObjects) – 桶中存储的对象总数。此值通过对存储桶中所有对象(当前对象和非当前对象)以及所有向存储桶进行分段上传而未完成的所有部分的总数进行计数而计算得出。

注意

存储桶为空时,不会报告存储桶指标数据。