OPS04-BP02 实施应用程序遥测 - AWS Well-Architected 框架

OPS04-BP02 实施应用程序遥测

应用程序遥测是实现工作负载可观测性的基础。发射遥测数据至关重要,它可以提供切实可行的洞察,便于了解应用程序的状态以及技术和业务成果的实现情况。从故障排除到衡量新功能的影响或确保与业务关键绩效指标(KPI)保持一致,应用程序遥测可为构建、操作和改进工作负载的方式提供指导。

指标、日志和跟踪数据构成了可观测性的三个主要支柱。它们用作诊断工具来描述应用程序状态。随着时间的推移,还可协助创建基准和识别异常情况。但是,为了确保监控活动与业务目标协调一致,定义和监控 KPI 至关重要。与只考虑纯粹的技术指标相比,业务 KPI 通常有助于更轻松地发现问题。

真实用户监控(RUM)和综合事务等其他遥测类型,是对这些主要数据来源的补充。RUM 有助于了解实时用户交互,而综合事务则模拟潜在的用户行为,有助于提前发现瓶颈,以防真实用户遇到瓶颈。

期望结果:获得有关工作负载性能的切实可行的洞察。这些洞察有助于主动作出性能优化决策,提高工作负载稳定性,简化 CI/CD 流程,并有效地利用资源。

常见反模式:

  • 可观测性不完整:忽略将可观测性纳入工作负载的每一层,造成盲点,从而掩盖重要的系统性能和行为洞察。

  • 支离破碎的数据视图:当数据分散在多个工具和系统中时,要全面了解工作负载的运行状况和性能,会非常困难。

  • 用户报告的问题:这表明缺乏通过遥测和业务 KPI 监控来主动发现问题的功能。

建立此最佳实践的好处:

  • 明智的决策:借助从遥测和业务 KPI 中获得的洞察,可以作出以数据驱动型决策。

  • 提高运营效率:数据驱动的资源利用率可提高成本效益。

  • 增强工作负载稳定性:更快地检测和解决问题,延长正常运行时间。

  • 简化 CI/CD 流程:从遥测数据获得的洞察有助于完善流程和可靠地交付代码。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

要为工作负载实现应用程序遥测,请使用 Amazon CloudWatchAWS X-Ray 等 AWS 服务。Amazon CloudWatch 提供了一套全面的监控工具,可观察 AWS 和本地环境中的资源和应用程序。该服务会收集、跟踪和分析指标,整合和监控日志数据,并对资源的变化做出响应,从而增进对工作负载运行方式的了解。同时,利用 AWS X-Ray,还可以跟踪、分析和调试应用程序,深入了解工作负载的行为。借助服务地图、延迟分布和跟踪时间表等功能,AWS X-Ray 可让您深入了解工作负载的性能和影响工作负载性能的瓶颈。

实施步骤

  1. 确定要收集哪些数据:确定有助于深入了解工作负载运行状况、性能和行为的基本指标、日志和跟踪数据。

  2. 部署 CloudWatch 代理CloudWatch 代理在从工作负载及其底层基础设施中获取系统和应用程序指标和日志方面发挥重要作用。CloudWatch 代理还可用于收集 OpenTelemetry 或 X-Ray 跟踪数据,并将其发送到 X-Ray。

  3. 对日志和指标实施异常检测:使用 CloudWatch Logs 异常检测功能CloudWatch Metrics 异常检测功能来自动识别应用程序操作中的异常活动。这些工具使用机器学习算法来检测异常情况并发出警报,从而增强了监控能力,加快了对潜在中断或安全威胁的响应速度。设置这些功能可主动管理应用程序的运行状况和安全性。

  4. 保护敏感日志数据:使用 Amazon CloudWatch Logs 数据保护来掩蔽日志中的敏感信息。此功能会在访问敏感数据之前自动检测和掩蔽敏感数据,有助于维护隐私和合规性。实施数据掩蔽,以期安全地处理和保护个人身份信息(PII)等敏感详细信息。

  5. 定义和监控业务 KPI:建立与业务结果一致的自定义指标

  6. 使用 AWS X-Ray 检测应用程序:除了部署 CloudWatch 代理之外,还必须对应用程序进行检测,以便发出跟踪数据。此过程可让您进一步了解工作负载的行为和性能。

  7. 标准化整个应用程序中的数据收集:标准化整个应用程序中的数据收集实践。统一性有助于关联和分析数据,从而全面了解应用程序的行为。

  8. 实现跨账户可观测性:借助 Amazon CloudWatch 跨账户可观测性,提高对多个 AWS 账户 的监控效率。利用该功能,可以将不同账户中的指标、日志和警报整合到一个视图中,从而简化管理,并提高对整个组织的 AWS 环境中已发现问题的响应速度。

  9. 分析数据并据此采取行动:数据收集和标准化完成后,使用 Amazon CloudWatch 进行指标和日志分析,并使用 AWS X-Ray 进行跟踪分析。此类分析可得出有关工作负载运行状况、性能和行为的重要洞察,从而指导决策过程。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: