PERF05-BP07 定期检查指标
作为例行维护的一部分或为了应对事件或意外事件,请检查收集到了哪些指标。通过这些检查,找出哪些指标对于解决问题至关重要,以及跟踪哪些其他指标会有助于发现、解决或预防问题。
常见反模式:
-
让指标长时间保持警报状态。
-
创建自动化系统无法操作的警报。
建立此最佳实践的好处:不断检查收集的指标,确认这些指标是否有助于正确地发现问题、解决问题或预防问题。如果让指标长时间保持警报状态,这些指标也会过时。
在未建立这种最佳实践的情况下暴露的风险等级:中
实施指导
不断改进指标收集和监控效果。在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。
在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。这样,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。
实施步骤
-
定义指标:定义为实现工作负载目标而需要监控的关键性能指标,包括响应时间和资源利用率等指标。
-
建立基准:为每个指标设置基准和期望值。基准应提供参考点,用于确定偏差或异常。
-
建立定期机制:建立定期机制(例如每周或每月)来审核关键指标。
-
识别性能问题:在每次审核期间,评测趋势以及与基准值的偏差。找出任何性能瓶颈或异常情况。对于已发现的问题,深入分析根本原因,了解问题背后的主要原因。
-
确定纠正措施:利用分析结果来确定纠正措施。这可能包括调整参数、修复错误和扩展资源。
-
记录调查发现:记录调查发现,包括已确定的问题、根本原因和纠正措施。
-
迭代和改进:持续评测和改进指标审核流程。利用从之前审核中吸取的经验教训,不断改进流程。
资源
相关文档:
相关视频:
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWS re:Invent 2023 - Building an effective observability strategy
-
AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS
-
AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
相关示例: