运营视角:运行状况和可用性 - AWS Cloud Adoption Framework 概览

运营视角:运行状况和可用性

运营 视角专注于确保在与业务利益攸关方议定的级别交付云服务。自动化和优化运营将使您能够有效地进行扩展,同时提高工作负载的可靠性。此视角包含九项功能,如下图所示。常见的利益攸关方包括基础设施和运营负责人、站点可靠性工程师和信息技术服务经理。

描绘 AWS CAF 运营视角功能的图。

AWS CAF 运营视角功能

  • 可观测性 – 从基础设施和应用程序数据获得切实可行的洞察。当您以云的速度和规模运营时,您需要能够在问题出现时指出问题(理想的情况是,在问题导致客户体验中断之前指出问题)。开发必要的遥测(日志、指标和跟踪),以了解工作负载的内部状态和运行状况。监控应用程序端点,评估对终端用户的影响,并在测量值超过阈值时生成提示。

    可使用合成监控创建 Canary(按计划运行的可配置脚本)来监控端点和 API。实施跟踪功能,以便在请求遍历整个应用程序时对其进行跟踪,并确定瓶颈或性能问题。使用指标和日志获得有关资源、服务器、数据库和网络的洞察。设置时间序列数据的实时分析,了解性能影响的原因。将数据集中到单一控制面板,为您提供有关工作负载及其性能的关键信息的统一视图

  • 事件管理 (AIOps) – 检测事件,评估事件的潜在影响,并确定适当的控制措施。能够过滤噪音、关注优先事件、预测即将发生的资源耗尽、自动生成提示和事件并确定可能的原因和补救措施,将有助于您改进事件检测和缩短响应时间。建立事件存储模式并利用机器学习 (AIOps) 来自动执行事件关联、异常检测和因果关系确定。与云服务和第三方工具(包括事件管理系统和流程)集成。自动响应事件以便减少由手动流程引起的错误,并确保响应及时且一致。

  • 事件和问题管理 – 快速恢复服务运营并将不良业务影响降至最低。随着云的采用,可实现服务问题和应用程序运行状况问题的响应流程的高度自动化,从而增加服务正常运行时间。随着您转向更加分散的运营模式,简化相关团队、工具和流程之间的交互将有助于您加快解决关键和/或复杂事件。在运维手册中定义上报路径,包括触发上报的事件和上报程序。

    练习事件响应实际演练,并将汲取的经验教训纳入运维手册。标识事件模式以确定问题和纠正措施。利用 Chatbot 和协作工具将运营团队、工具和工作流联系起来。利用完善的事件后分析来确定造成事件的因素并制定相应的行动计划。

  • 变更和发布管理 – 引入和修改工作负载,并最大限度地降低生产环境面临的风险。传统的发布管理是一个复杂的过程,部署速度慢且难以回滚。通过采用云,可以利用 CI/CD 技术快速管理发布和回滚。建立变更流程,实现与云的敏捷性保持一致的自动化审批工作流。使用部署管理系统来跟踪并实施更改。频繁进行可逆的小规模更改可以缩小变更的范围。在所有生命周期阶段测试更改并验证结果,最大限度地减小部署失败的风险和影响。在没有达到预期时自动回滚到之前的已知良好状态,尽可能缩短恢复时间,并减少手动过程引起的错误。

  • 性能和容量管理 – 监控工作负载性能并确保容量满足当前和未来的需求。尽管云的容量实际上是无限的,但可以借助 Service Quotas容量预留和资源约束来限制工作负载的实际容量。需要理解并有效管理此类容量限制。确定主要利益攸关方,并就目标、范围和指标达成一致。收集和处理性能数据,并根据目标定期审查和报告性能。定期评估新技术以提高性能,并根据需要提出目标和指标更改建议。监控工作负载的利用率,制定基准以便将来比较,并根据需要确定阈值以扩展容量。分析一段时间内的需求,确保容量可满足季节性趋势和波动的运营条件。

  • 配置管理 – 保留所有云工作负载、它们之间的关系以及一段时间内的配置更改的完整准确的记录。除非得到有效管理,否则云资源预置的动态和虚拟特性可能会导致出现配置偏差。定义并实施标记架构,将您的业务属性叠加到云使用情况,并利用标签按技术、业务和安全维度整理资源。指定强制性标签,并通过策略实施合规性。利用基础设施即代码 (IaC) 和配置管理工具进行资源预置和生命周期管理。制定配置基准并通过版本控制予以维护。

  • 补丁管理 – 系统地分发和应用软件更新。软件更新可以修复新出现的安全漏洞、纠正错误并引入新功能。系统化的补丁管理方法将确保您受益于最新的更新,同时最大限度地减少生产环境面临的风险。在指定的维护时段应用重要更新,并尽快应用关键安全更新。提前告知用户即将发布的更新的详细信息,并允许他们在有其他缓解控制措施可用时延迟修补。在投入生产环境之前,更新您的机器映像并测试补丁。为确保修补期间的持续可用性,请考虑为每个可用区 (AZ) 和环境设立单独的维护时段。定期审查补丁合规性,并提示不合规团队应用所需的更新。

  • 可用性和连续性管理 – 确保业务关键型信息、应用程序和服务的可用性。在构建支持云的备份解决方案时,需要仔细考虑现有的技术投资、恢复目标和可用资源。在发生灾难和安全事件后,及时恢复将有助于保持系统可用性和业务连续性。根据确立的时间表备份您的数据和文档。

    制定灾难恢复计划,将它作为业务连续性计划的一部分。确定每个工作负载的不同灾难场景的威胁、风险、影响和成本,并相应地指定恢复时间目标 (RTO) 和恢复点目标 (RPO)。利用多可用区或多区域架构实施所选灾难恢复策略。考虑利用混沌工程来提高受控实验的弹性和性能。定期审查和测试您的计划,并根据汲取的经验教训调整您的方法。

  • 应用程序管理 – 在单个管理控制台中调查和修复应用程序问题。通过将应用程序数据聚合到单个管理控制台中,可以减少在不同的管理工具之间切换上下文的需求,从而简化运营监督并加快修复应用程序问题。

    与其他运营和管理系统(例如应用程序组合管理和 CMDB)集成自动发现应用程序组件和资源,并将应用程序数据整合到单个管理控制台中。包括软件组件和基础设施资源,并描述不同的环境,例如开发、暂存和生产环境。要更快、更一致地修复运营问题,可以考虑自动执行运维手册工作流程。