PERF05-BP02 使用监控解决方案了解性能最为关键的方面 - 性能效率支柱

PERF05-BP02 使用监控解决方案了解性能最为关键的方面

了解并确定在哪些方面提高工作负载性能,会对效率或客户体验产生积极的影响。例如,拥有大量客户交互的网站会因为使用边缘服务在距离客户更近的位置向客户分发内容而受益。

常见反模式:

  • 您认为标准计算指标(例如,CPU 利用率或内存压力)足够捕获性能问题。

  • 您只使用由自己选定的监控软件记录的默认指标。

  • 您只在出现问题时审查指标。

建立这种最佳实践的好处:了解性能的关键方面有助于工作负载负责人监控 KPI,优先考虑影响力比较高的改进。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

设置端到端的跟踪,用于确定流量模式、延迟和关键性能领域。针对速度缓慢的查询或性能欠佳的碎片和分区数据,监控数据访问模式。使用负载测试或监控来确定受约束的工作负载领域。

通过了解架构、流量模式和数据访问模式,提高性能效率,并确定延迟和处理时间。确定随着工作负载增长可能会影响客户体验的潜在瓶颈。在研究了这些方面之后,再看看可以通过部署哪项解决方案来解决这些性能问题。

实施步骤

  • 设置端到端的监控,用于收集所有工作负载组件和指标。以下是 AWS 监控解决方案的示例。

    Service Where to use
    Amazon CloudWatch 真实用户监控(RUM) To capture application performance metrics from real user client-side and frontend sessions.
    AWS X-Ray  To trace traffic through the application layers and identify latency between components and dependencies. Use X-Ray service maps to see relationships and latency between workload components.
    Amazon Relational Database Service 性能详情  To view database performance metrics and identify performance improvements.
    Amazon RDS 增强监控  To view database OS performance metrics.
    Amazon DevOps Guru To detect abnormal operating patterns so you can identify operational issues before they impact your customers.
  • 执行测试以生成指标,确定流量模式、瓶颈和关键性能领域。以下是一些有关如何执行测试的示例:

    • 设置 CloudWatch Synthetic Canaries,使用 Linux cron 作业或速率表达式,通过编程方式模拟浏览器端的用户活动,从而生成一段时间内的稳定指标。

    • 使用 AWS 分布式负载测试解决方案生成峰值流量,或者在预期增长速率下测试工作负载。

  • 评估指标和遥测数据,确定您的关键性能方面。与团队一起审查这些方面,讨论监控和解决方案以避免瓶颈。

  • 试验性能改进,并利用数据来衡量这些更改。例如,您可以使用 CloudWatch Evidently 来测试新的改进以及对工作负载的性能影响。

资源

相关文档:

相关视频:

相关示例: