COST11-BP01 执行运营自动化 - 成本优化支柱

COST11-BP01 执行运营自动化

评估云端的运营成本,专注于量化在管理任务、部署、人为错误风险缓解、合规性以及通过自动化实现的其他操作方面所节省的时间和工作量。评测运营工作所需的时间和相关成本,实现管理任务的自动化,从而最大限度地减少人工操作。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

通过实现操作的自动化,还可以在部署、管理或运行工作负载时提供一致且可靠的体验,从而降低手动任务的频率、提高效率以及使客户受益。您可以将基础设施资源从手动操作任务中解放出来,让他们参与更高价值的任务和创新,从而提高业务价值。企业需要行之有效、经过测试的方法来管理云中的工作负载。该解决方案必须安全、快速、经济高效,风险最低且可靠性最高。

首先着眼于总体运营成本,根据所需的工作量确定运营活动的优先级。例如,在云中部署新资源、对现有资源进行优化更改或实施必要的配置需要多长时间? 考虑运营和管理成本,看看人工行为的总成本。优先考虑管理任务的自动化,以减少人工工作量。

审核工作应该体现可能带来的好处。例如,检查与自动执行任务相比,手动执行任务所花费的时间。优先考虑自动执行重复、高价值、耗时和复杂的活动。从那些高价值或人为错误风险高的活动开始实现自动化通常会更好,因为风险通常会带来不必要的额外运营成本(例如,运营团队加班产生的成本)。

使用 AWS Systems Manager 或 AWS Config 等自动化工具来简化运营、合规性、监控、生命周期和终止流程。借助 AWS 服务、工具和第三方产品,您可以自定义所实施的自动化来满足特定要求。下表显示了您为了自动执行管理和运营,可以通过 AWS 服务实现的一些核心运营职能和能力:

  • AWS Audit Manager:持续审核 AWS 使用情况,以简化风险和合规性评测

  • AWS Backup:集中管理和自动化数据保护。

  • AWS Config:配置计算资源,评估、审核配置和资源清单。

  • AWS CloudFormation:使用“基础设施即代码”启动高可用性资源。

  • AWS CloudTrail:IT 变更管理、合规性和控制。

  • Amazon EventBridge 调度事件并触发 AWS Lambda 采取行动。

  • AWS Lambda:通过使用事件触发重复流程,或者使用 AWS EventBridge 按固定计划运行重复流程,实现这些流程的自动化。

  • AWS Systems Manager:启动和停止工作负载、修补操作系统、自动配置和持续管理。

  • AWS Step Functions:安排作业并实现工作流程自动化。

  • AWS Service Catalog:模板消费,基础设施即代码,具有合规性和控制力。

如果您想在使用 AWS 产品和服务时立即采用自动化,并且组织中没有相关技能,请联系 AWS Managed Services(AMS)AWS 专业服务团队AWS 合作伙伴,以提高自动化的采用率并改善您在云端的卓越运营。

AWS Managed Services(AMS)是代表企业客户和合作伙伴运营 AWS 基础设施的服务。该服务提供了一个安全且合规的环境,您可以将工作负载部署到其中。AMS 使用具有自动化功能的企业云运营模型,让您可以满足组织要求,更快地迁移到云中并降低持续的管理成本。

AWS 专业服务团队还可以帮助您实现期望的业务成果并通过 AWS 实现运营自动化。团队成员帮助客户部署自动、稳健、敏捷的 IT 运营,还提供针对云进行优化的治理能力。有关详细的监控示例和推荐的最佳实践,请参阅《卓越运营支柱白皮书》。

实施步骤

  • 一次构建,多次部署:使用基础设施即代码(例如 CloudFormation、AWS SDK 或 AWS CLI)一次部署并多次用于类似环境或灾难恢复场景。在部署时进行标记,以便按照其他最佳实践中的规定跟踪使用情况。使用 AWS Launch Wizard 缩短部署许多常用企业工作负载的时间。AWS Launch Wizard 指导您按照 AWS 最佳实践完成企业工作负载的大小调整、配置和部署。还可以使用 Service Catalog,它可以帮助您创建和管理经基础设施即代码批准的模板以在 AWS 上使用,以便任何人都可以发现经批准的自助式云资源。

  • 实现持续合规自动化:考虑根据预定义的标准自动评测和补救记录的配置。将 AWS Organizations 与 AWS Config 和 AWS CloudFormation 的功能相结合后,可以高效地大规模管理和自动化数百个成员账户的配置合规性。可以审核配置更改以及 AWS 资源之间的关系,并深入探究资源配置的历史记录。

  • 自动执行监控任务 AWS 为您提供了各种工具用来监控服务。您可以配置这些工具来自动执行监控任务。创建并实施监控计划,以收集工作负载中所有部分的监控数据,在发生多点故障时,就能更轻松地进行调试。例如,当系统状态检查、实例状态检查和 Amazon CloudWatch 警报出现问题时,可以使用自动监控工具来观察 Amazon EC2 并向您发送报告。

  • 自动执行维护和操作:自动运行例行操作,无需人工干预。使用 AWS 服务和工具,您可以选择实施哪些 AWS 自动化,并根据您的特定要求进行自定义。例如,使用 EC2 Image Builder 构建、测试和部署虚拟机和容器镜像,以在 AWS 或本地使用,或者使用 AWS SSM 修补 EC2 实例。如果无法使用 AWS 服务完成所需操作,或者需要针对筛选资源执行更复杂的操作,请使用 AWS Command Line Interface(AWS CLI)或 AWS SDK 工具自动执行操作。AWS CLI 提供了使用脚本即可自动执行控制和管理 AWS 服务的整个流程的能力,无需使用 AWS Management Console。选择首选的 AWS SDK 与 AWS 服务交互。有关其他代码示例,请参阅 AWS SDK 代码示例存储库

  • 通过自动化创建持续的生命周期:制定和保留成熟的生命周期策略非常重要,这不仅是为了法规或冗余,还是为了成本优化。可以使用 AWS Backup 集中管理和自动保护数据存储(例如,存储桶、卷、数据库和文件系统)中的数据。还可以使用 Amazon Data Lifecycle Manager 来自动创建、保留和删除 EBS 快照和 EBS 支持的 AMI。

  • 删除不必要的资源:在沙盒或开发 AWS 账户 中积累未使用的资源是很常见的情况。在一般开发周期内,开发人员将创建和试验各种服务与资源,之后,当他们不再需要这些资源时,不会将其删除。未使用的资源会给组织带来不必要的成本,这些成本有时甚至非常高。删除这些资源可降低这些环境的运营成本。确认您不需要这些数据,如果无法确定,请确认数据已备份。可以使用 AWS CloudFormation 清理已部署的堆栈,这将自动删除模板中定义的大多数资源。或者,可以使用诸如 aws-nuke 之类的工具实现 AWS 资源删除操作的自动化。

资源

相关文档:

相关视频:

相关示例: