使用监控运行状况检查 CloudWatch - Amazon Route 53

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用监控运行状况检查 CloudWatch

Route 53 运行状况检查与 CloudWatch 指标集成,因此您可以执行以下操作:

  • 验证是否已正确配置运行状况检查。

  • 查看运行状况检查在指定时间段内的状态。

  • 配置 CloudWatch 为在运行状况检查的状态为不健康时发送 Amazon SNS 警报。请注意,从运行状况检查失败到您收到相关SNS通知的时间之间可能需要几分钟。

有关更多信息,请参阅 Amazon Route 53 如何确定运行状况检查是否正常

查看您的健康检查状态

注意

我们正在更新 Route 53 的运行状况检查控制台。在过渡期间,您可以继续使用旧控制台。

选择您正在使用的控制台的选项卡。

New console
查看运行状况检查的状态
  1. 登录 AWS Management Console 并打开 Route 53 控制台,网址为https://console.aws.amazon.com/route53/

  2. 在导航窗格中,选择 Health checks

  3. 选择要查看其指标的运行状况检查的关联 ID。

  4. 在底部窗格中,选择 “指标” 选项卡。

    这两个图表以一分钟间隔显示了上一小时的状态:

    Health check status

    该图表显示端点运行状况的 Route 53 评估。1 表示运行状况正常,0 表示运行状况不正常。

    报告端点正常的运行状态检查程序 (%)

    对于仅监控端点的运行状况检查,该图表显示了认为所选端点运行状况良好的 Route 53 运行状况检查程序的百分比。

    当运行状况检查已禁用,此指标不可用。

    Number of healthy child health checks

    仅适用于已计算的运行状况检查,该图表显示运行状况良好的子运行状况检查的数量。

  5. 要查看更大的图表并指定不同的设置,请选择右上角的三个点,然后选择放大。您可以更改以下设置:

    Statistic

    更改对数据 CloudWatch 执行的计算。

    时间范围

    显示不同时间段内的运行状况检查的状态,例如,隔夜或上周。

    Period

    更改图表中的数据点之间的间隔。

    请注意以下几点:

    • 如果您刚刚创建运行状况检查,可能需要等待几分钟时间,数据才会显示在图表上,运行状况检查指标才会显示在可用指标列表中。

    • 该图表不会自动自行刷新。要更新显示,请选择刷新 ( Icon to refresh the CloudWatch graph ) 图标。

Old console
查看运行状况检查的状态(新控制台)
  1. 登录 AWS Management Console 并打开 Route 53 控制台,网址为https://console.aws.amazon.com/route53/

  2. 在导航窗格中,选择 Health Checks (运行状况检查)

  3. 选择相应运行状况检查对应的行。

  4. 在底部窗格中,选择 Monitoring (监控) 选项卡。

    这两个图表以一分钟间隔显示了上一小时的状态:

    Health check status

    该图表显示端点运行状况的 Route 53 评估。1 表示运行状况正常,0 表示运行状况不正常。

    报告端点正常的运行状态检查程序 (%)

    对于仅监控端点的运行状况检查,该图表显示了认为所选端点运行状况良好的 Route 53 运行状况检查程序的百分比。

    当运行状况检查已禁用,此指标不可用。

    Number of healthy child health checks

    仅适用于已计算的运行状况检查,该图表显示运行状况良好的子运行状况检查的数量。

    注意

    如果您选择了多个运行状况检查,图表将为每个运行状况检查显示具有不同颜色的行。

  5. 要查看更大的图表并指定不同设置,请单击图表。您可以更改以下设置:

    Statistic

    更改对数据 CloudWatch 执行的计算。

    时间范围

    显示不同时间段内的运行状况检查的状态,例如,隔夜或上周。

    Period

    更改图表中的数据点之间的间隔。

    请注意以下几点:

    • 如果您刚刚创建运行状况检查,可能需要等待几分钟时间,数据才会显示在图表上,运行状况检查指标才会显示在可用指标列表中。

    • 该图表不会自动自行刷新。要更新显示,请选择刷新 ( Icon to refresh the CloudWatch graph ) 图标。

查看运行状况检查警报

注意

我们正在更新 Route 53 的运行状况检查控制台。在过渡期间,您可以继续使用旧控制台。

选择您正在使用的控制台的选项卡。

New console
查看 CloudWatch Amazon Route 53 的警报状态和编辑警报
  1. 在 Route 53 控制台的导航窗格中,选择 Health checks

  2. 选择要查看其警报的运行状况检查的关联 ID。

  3. 在详细信息页面的底部,选择报选项卡。

    报列表包含您为所选运行状况检查创建的所有 Route 53 警报。

    State (状态) 列显示每个告警的当前状态:

    确定

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,足以确定终端节点未达到警报阈值。

    INSUFFICIENT DATA

    CloudWatch 积累的统计数据不足以确定终端节点是否达到警报阈值。这是新告警的初始状态。INSUFFICIENTDATA如果 CloudWatch 指标不可用,或者您删除运行状况检查而不删除关联的警报,警报状态也会更改为。

    ALARM

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,足以确定终端节点是否达到警报阈值并向指定的电子邮件地址发送通知。

  4. 要在 CloudWatch 控制台中查看警报,该控制台提供了有关警报的更多详细信息(例如,警报更新和状态变化的历史记录),请选择警报的链接名称。您也可以在 CloudWatch 控制台上编辑警报。

  5. 要在 CloudWatch 控制台上创建新 CloudWatch 警报,请选择创建 CloudWatch 警报。有关更多信息,请参阅CloudWatch 用户指南中的查找和创建推荐警报

Old console
查看 CloudWatch Amazon Route 53 的警报状态和编辑警报
  1. 在 Route 53 控制台的导航窗格中,选择 Health Checks(运行状况检查)。

  2. 选择任意运行状况检查对应的行。

  3. 在详细信息窗格中(在 x 运行状况检查已选定之后),选择右边三角 ( Icon to expand the list of CloudWatch alarms ) 图标。

    CloudWatch 警报列表包含您使用当前 AWS 账户创建的所有 Route 53 警报。

    State (状态) 列显示每个告警的当前状态:

    确定

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,足以确定终端节点未达到警报阈值。

    INSUFFICIENT DATA

    CloudWatch 积累的统计数据不足以确定终端节点是否达到警报阈值。这是新告警的初始状态。INSUFFICIENTDATA如果 CloudWatch 指标不可用,或者您删除运行状况检查而不删除关联的警报,警报状态也会更改为。

    ALARM

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,足以确定终端节点是否达到警报阈值并向指定的电子邮件地址发送通知。

  4. 要查看或编辑告警设置,请选择告警的名称。

  5. 要在 CloudWatch 控制台中查看警报,该控制台提供了有关警报的更多详细信息(例如,警报更新和状态变化的历史记录),请在该警报的 “更多选项” 列中选择 “查看”。

  6. 要查看您使用当前 AWS 账户创建的所有 CloudWatch 警报,包括其他 AWS 服务的警报,请选择查看所有 CloudWatch 警报

  7. 要查看所有可用 CloudWatch 指标,包括当前 AWS 账户当前未使用的指标,请选择查看所有 CloudWatch 指标

在 CloudWatch 控制台上查看运行状况检查指标

在 CloudWatch 控制台上查看 Route 53 指标
  1. 登录 AWS Management Console 并打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/

  2. 将当前区域更改为美国东部(弗吉尼亚北部)。如果您选择其它任何区域作为当前区域,Route 53 指标将不可用。

  3. 在导航窗格中,选择 Metrics (指标)

  4. All metrics (所有指标) 选项卡上,选择 Route 53

  5. 选择 Health Check Metrics (运行状况检查指标)

  6. 您也可以在 CloudWatch 控制台上设置SNS通知。有关更多信息,请参阅《CloudWatch 用户指南》中的创建推荐警报

创建带有SNS通知的警报

注意

以下步骤仅适用于旧控制台。新的控制台将引导您进入 CloudWatch 控制台以创建警报。有关更多信息,请参阅CloudWatch 用户指南中的查找和创建推荐警报

在运行状况检查状态为不健康时接收 Amazon SNS 通知(旧控制台)
  1. 在 Route 53 控制台的导航窗格中,选择 Health Checks(运行状况检查)。

  2. 选择相应运行状况检查对应的行。

  3. 在底部窗格中,选择 Alarms (告警) 选项卡。

    该表列出了已为此运行状况检查创建的告警。

  4. 选择 Create Alarm (创建告警)

  5. 指定以下值:

    告警名称

    输入您希望 Route 53 在 Alarms(告警)选项卡上的 Name(名称)列中显示的名称。

    告警说明

    (可选)输入告警的描述。此值显示在 CloudWatch 控制台中。

    发送通知

    选择当此运行状况检查的状态触发告警时是否希望 Route 53 向您发送通知。

    通知目标(仅当“发送目标”为“Yes”时)

    如果要 CloudWatch 向现有SNS主题发送通知,请从列表中选择该主题。

    如果您想发送通知 CloudWatch ,但不想向现有SNS主题发送通知,请执行以下任一操作:

    • 如果您 CloudWatch 想发送电子邮件通知,请选择新建SNS主题并继续此过程。

    • 如果您 CloudWatch 想通过其他方法发送通知,请打开新的浏览器选项卡,进入Amazon SNS 控制台,然后创建新主题。然后,返回到 Route 53 控制台,从 Notification target(通知目标)列表中选择新主题的名称,并继续执行此过程。

    主题名称(仅当您选择创建新的 Amazon SNS 主题时)

    输入新 Amazon SNS 主题的名称。

    收件人电子邮件地址(仅当您选择创建新的 Amazon SNS 主题时)

    输入您希望 Route 53 在运行状况检查触发警报时向其发送SNS通知的电子邮件地址。

    告警目标

    选择您希望 Route 53 为此运行状况检查评估的值:

    • Health check status(运行状况检查状态)— Route 53 运行状况检查程序报告运行状况检查为正常或不正常

    • 报告端点运行正常的运行状况检查程序(%)—(仅监控端点的运行状况检查) 报告运行状况检查状态为正常的 Route 53 运行状况检查程序的百分比

    • Number of healthy child health checks(正常的子运行状况检查的数量)(仅限于已计算的运行状况检查)— 已计算的运行状况检查中将运行状况检查的状态报告为正常的子运行状况检查的数量

    • TCP连接时间(HTTP仅限运行TCP状况检查)-Route 53 运行状况检查器与终端节点建立连接所花费的时间(以毫秒为TCP单位)

    • 完成SSL握手的时间(仅限运行HTTPS状况检查)— Route 53 运行状况检查器完成/握手所花费的时间(以毫秒为单位)SSLTLS

    • 第一个字节的时间(HTTP仅限运行HTTPS状况检查)— Route 53 运行状况检查器收到或请求响应的第一个字节所花费的时间(以毫秒为单位)HTTPHTTPS

    告警目标

    对于基于延迟(TCP连接时间、完成SSL握手时间、到第一个字节的时间)的警报目标,请选择是CloudWatch 要计算特定区域中 Route 53 运行状况检查器的延迟,还是要计算所有区域(全球)的延迟。

    请注意,如果您选择一个区域,Route 53 每分钟仅测量两次延迟,样本数将比选择所有区域时小。因此,更有可能出现离群值。为防止虚假警报通知,我们建议您指定更多的连续时间段,运行状况检查必须失败,然后才能 CloudWatch 向您发送通知。

    满足条件

    使用以下设置来确定何时 CloudWatch 应触发警报。

    告警目标 建议的条件 描述

    Health check status

    最小值 < 1

    当端点运行状况不佳时,Route 53 运行状况检查程序将会报告。

    报告端点正常的运行状态检查程序 (%)

    平均值 < 预期百分比

    仅监控端点的运行状况检查 — 当报告状态为正常的运行状况检查程序少于 18% 时,Route 53 将认为运行状况检查的状态为不正常。请勿选择此指标的 Sample Count(样本数),因为样本数的范围可能随 Route 53 添加更多运行状况检查区域而发生变化。平均值 将始终准确表示报告运行状况检查状态的检查程序的百分比。

    Number of healthy child health checks

    最小值 < 预期的正常子运行状况检查数

    最小值 统计数据将返回最保守的值,并表示最糟糕的情况。

    TCP连接时间

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    是时候完成SSL握手了

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    Time to first byte

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    至少 x 连续的时期 y 分钟/小时/天

    指定在多少个连续时间段内指定的值均满足标准,Route 53 才会发送通知。然后指定时间段的长度。

  6. 当您选择 “创建” 时,Amazon SNS 会向您发送一封包含有关新SNS主题信息的电子邮件。

  7. 在电子邮件中,选择 Confirm subscription(确认订阅)。您必须确认订阅才能开始接收 CloudWatch 通知。