本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
带有的警报选项 CloudWatch
对重要指标进行一次性自动分析可帮助您在问题影响工作负载之前检测和解决问题。 CloudWatch 通过使用特定时间段内的多个统计数据,可以轻松绘制和比较多个指标。您可以使用 CloudWatch 搜索具有所需维度值的所有指标,以找到分析所需的指标。
我们建议您在开始使用指标捕获方法时加入一组初始指标和维度,用作监控工作负载的基准。随着时间的推移,工作负载会逐渐成熟,您可以添加其他指标和维度来帮助您进一步分析和支持它。您的应用程序或工作负载可能使用多个 AWS 资源并有自己的自定义指标,您应将这些资源分组到一个命名空间下,以便于识别。
您还应考虑如何将日志和监控数据关联起来,以便可以快速识别相关的日志和监控数据来诊断特定问题。您可以使用AWS X-Ray 跟踪映射关联跟踪、指标、日志和警报,以诊断问题。您还应考虑在工作负载日志中的指标和标识符中加入其他维度,以帮助您快速搜索和识别系统和服务中的问题。
使用 CloudWatch 警报进行监控和报警
您可以使用CloudWatch 警报来减少工作负载或应用程序中的手动监控。首先,您应查看为每个工作负载组件捕获的指标,并确定每个指标的相应阈值。请务必确定在突破阈值时必须通知哪些团队成员。您应该建立和定位通讯组,而不是单个团队成员。
CloudWatch 警报可以与您的服务管理解决方案集成,以自动创建新工单并运行操作工作流程。例如, AWS 为ServiceNow和提供了 AWS 服务管理连接器AWS 服务管理连接器来帮助您快速设置集成。这种方法对于确保已发出的警报得到确认并与这些产品中可能已经定义的现有操作工作流程保持一致至关重要。
您还可以为同一指标创建多个具有不同阈值和评估周期的警报,这有助于建立上报流程。例如,如果您有一个跟踪客户订单的OrderQueueDepth
指标,则可以在短短的一分钟内定义一个较低的阈值,通过电子邮件或 Slack 通知应用程序团队成员。您还可以在相同阈值下为同一指标定义另一个警报,持续15分钟,并向应用程序团队和应用程序团队的负责人发送页面、电子邮件和通知。最后,您可以为30分钟内的硬平均阈值定义第三个警报,该警报通知上级管理层并通知之前通知的所有团队成员。创建多个警报可帮助您针对不同的条件采取不同的操作。您可以从简单的通知流程开始,然后根据需要对其进行调整和改进。
使用 CloudWatch 异常检测进行监控和报警
如果您不确定要应用于特定指标的阈值,或者希望警报根据观察到的历史值自动调整阈值,则可以使用CloudWatch 异常检测。 CloudWatch 异常检测对于可能有定期、可预测的活动变化的指标特别有用,例如,当日送达的每日采购订单在截止时间之前增加。异常检测可实现自动调整的阈值,并有助于减少误报。您可以为每个指标和统计数据启用异常检测,并配置 CloudWatch 为根据异常值发出警报。
例如,您可以为EC2实例的CPUUtilization
指标和AVG
统计数据启用异常检测。然后,异常检测使用最多 14 天的历史数据来创建机器学习 (ML) 模型。您可以创建具有不同异常检测波段的多个警报,以建立警报升级流程,类似于创建具有不同阈值的多个标准警报。
有关本节的更多信息,请参阅 CloudWatch 文档中的基于异常检测创建 CloudWatch警报。
跨多个地区和账户发出警报
应用程序和工作负载所有者应为跨多个区域的工作负载创建应用程序级警报。我们建议在部署您的工作负载的每个账户和区域内创建单独的警报。您可以使用与账户和区域无关以及模板来部署带有所需警 AWS CloudFormation StackSets 报的应用程序资源,从而简化和自动化此过程。 templateYou 可以将警报操作配置为针对常见的亚马逊简单通知服务 (AmazonSNS) 主题,这意味着无论账户或区域如何,都使用相同的通知或补救措施。
在多账户和多区域环境中,我们建议您为您的账户和区域创建汇总警报,以便通过使用和汇总指标(例如CPUUtilization
所有EC2实例的平均值)来监控账户 AWS CloudFormation
StackSets 和区域问题。
您还应考虑为为捕获的标准 CloudWatch 指标和日志配置的每个工作负载创建标准警报。例如,您可以为每个EC2实例创建单独的警报,用于监控CPU利用率指标,并在每日平均CPU利用率超过 80% 时通知中央运营团队。您还可以创建标准警报,每天监控低于 10% 的平均CPU利用率。这些警报可帮助中央运营团队与特定的工作负载所有者合作,在需要时更改EC2实例的大小。
使用EC2实例标签自动创建警报
为您的EC2实例创建一组标准警报可能非常耗时、不一致且容易出错。您可以使用该 amazon-cloudwatch-auto-alarms