OPS04-BP02 实现应用程序遥测 - AWS Well-Architected 框架

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

OPS04-BP02 实现应用程序遥测

应用程序遥测是实现工作负载可观测性的基础。发射遥测数据至关重要,它可以提供切实可行的洞察,便于了解应用程序的状态以及技术和业务成果的实现情况。从故障排除到衡量新功能的影响或确保与业务关键性能指标 (KPIs) 保持一致,应用程序遥测可以为你构建、操作和改进工作负载的方式提供信息。

指标、日志和跟踪数据构成了可观测性的三个主要支柱。它们用作诊断工具来描述应用程序状态。随着时间的推移,还可协助创建基准和识别异常情况。但是,为了确保监控活动和业务目标之间的一致性,定义和监控至关重要KPIs。与单独的技术指标相比,业务KPIs通常可以更轻松地识别问题。

其他遥测类型,例如真实用户监控 (RUM) 和合成交易,是对这些主要数据源的补充。RUM提供实时用户交互的见解,而合成交易则模拟潜在的用户行为,有助于在真实用户遇到瓶颈之前发现瓶颈。

期望结果:获得有关工作负载性能的切实可行的洞察。这些洞察有助于主动作出性能优化决策,提高工作负载稳定性,简化 CI/CD 流程,并有效地利用资源。

常见反模式:

  • 可观测性不完整:忽略将可观测性纳入工作负载的每一层,造成盲点,从而掩盖重要的系统性能和行为洞察。

  • 支离破碎的数据视图:当数据分散在多个工具和系统中时,要全面了解工作负载的运行状况和性能,会非常困难。

  • 用户报告的问题:这表明缺少通过遥测和业务KPI监控进行主动问题检测。

建立此最佳实践的好处:

  • 明智的决策:借助遥测和业务的见解KPIs,您可以做出以数据为导向的决策。

  • 提高运营效率:数据驱动的资源利用率可提高成本效益。

  • 增强工作负载稳定性:更快地检测和解决问题,延长正常运行时间。

  • 简化 CI/CD 流程:从遥测数据获得的洞察有助于完善流程和可靠地交付代码。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

要为您的工作负载实施应用程序遥测,请使用诸如 Amazon CloudWatchAWS X-Ray之类的 AWS 服务。Amazon CloudWatch 提供了一套全面的监控工具,允许您在本地和本地环境中观察您的资源 AWS 和应用程序。该服务会收集、跟踪和分析指标,整合和监控日志数据,并对资源的变化做出响应,从而增进对工作负载运行方式的了解。同时, AWS X-Ray 您可以跟踪、分析和调试应用程序,从而深入了解工作负载的行为。借助服务地图、延迟分布和跟踪时间表等功能,您可以 AWS X-Ray 深入了解工作负载的性能和影响它的瓶颈。

实施步骤

  1. 确定要收集哪些数据:确定有助于深入了解工作负载运行状况、性能和行为的基本指标、日志和跟踪数据。

  2. 部署CloudWatch代理:代理在从您的工作负载及其底层基础设施中获取系统和应用程序指标和日志方面发挥了重要作用。 CloudWatch 该 CloudWatch 代理还可用于收集 OpenTelemetry 或 X-Ray 痕迹并将其发送到 X-Ray。

  3. 对日志和指标实施异常检测:使用CloudWatch 日志异常检测CloudWatch指标异常检测来自动识别应用程序操作中的异常活动。这些工具使用机器学习算法来检测异常情况并发出警报,从而增强了监控能力,加快了对潜在中断或安全威胁的响应速度。设置这些功能可主动管理应用程序的运行状况和安全性。

  4. 保护敏感日志数据:使用 Amazon Lo CloudWatch gs 数据保护来屏蔽日志中的敏感信息。此功能会在访问敏感数据之前自动检测和掩蔽敏感数据,有助于维护隐私和合规性。实施数据屏蔽以安全地处理和保护敏感细节,例如个人身份信息 (PII)。

  5. 定义和监控业务KPIs:建立与您的业务结果相一致的自定义指标

  6. 使用 AWS X-Ray以下方法检测您的应用程序:除了部署 CloudWatch代理之外,还必须对应用程序进行检测以发出跟踪数据。此过程可让您进一步了解工作负载的行为和性能。

  7. 标准化整个应用程序中的数据收集:标准化整个应用程序中的数据收集实践。统一性有助于关联和分析数据,从而全面了解应用程序的行为。

  8. 实现跨账户可观察性:借助 AWS 账户 A ma CloudWatch zon 跨账户可观察性,提高对多个账户的监控效率。借助此功能,您可以将来自不同账户的指标、日志和警报整合到一个视图中,从而简化管理,缩短组织 AWS 环境中已发现问题的响应时间。

  9. 分析数据并采取行动:数据收集和标准化完成后,使用 Amazon CloudWatch 进行指标和日志分析以及AWS X-Ray跟踪分析。此类分析可得出有关工作负载运行状况、性能和行为的重要洞察,从而指导决策过程。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: