配置 CloudWatch 基于操作的恢复 - Amazon Elastic Compute Cloud

配置 CloudWatch 基于操作的恢复

重要
  • 以下信息适用于在运行正常的实例上配置与恢复相关的功能。如果您目前在访问实例时遇到困难,请参阅 EC2 实例问题排查

  • 为了让您的工作负载在成功恢复实例后正常运行,您的实例必须在无需手动干预的情况下启动并接受流量。

您可以配置 Amazon CloudWatch 基于操作的恢复,将恢复操作添加到 Amazon CloudWatch 警报中。CloudWatch 基于操作的恢复与 StatusCheckFailed_System 指标结合使用。CloudWatch 基于操作的恢复可提供分钟级恢复响应时间粒度,以及有关恢复操作和结果的 Amazon Simple Notification Service(Amazon SNS)通知。与简化的自动恢复相比,这些配置选项可以更精细地控制系统状态检查失败事件响应,从而更快地尝试恢复。有关可用 CloudWatch 选项的更多信息,请参阅实例的状态检查

Amazon CloudWatch 基于操作的恢复在 AWS Health Dashboard 中的服务事件期间不起作用。有关更多信息,请参阅 排查 CloudWatch 基于操作的恢复失败

CloudWatch 基于操作的恢复的要求和限制

CloudWatch 基于操作的恢复会在实例符合以下条件时尝试恢复实例:

  • 处于 running 状态。有关更多信息,请参阅 Amazon EC2 实例状态更改

  • 使用 default(按需)或 dedicated 实例租赁。有关更多信息,请参阅 Amazon EC2 账单和购买选项

  • 属于 Amazon EC2 具有可用容量的实例类型。在某些情况下,例如严重中断,将没有充足的可用容量,并且某些恢复尝试可能会失败。

  • 不使用 host 实例租赁。对于 Amazon EC2 专属主机,您可以使用专属主机自动恢复功能自动恢复运行状况不佳的实例。

  • 不使用 Elastic Fabric Adapter。

  • 不是 Auto Scaling 组的成员。

  • 目前未进行定期维护事件。

  • 使用以下其中一种实例类型:

    • 通用型:A1 | M3 | M4 | M5 | M5a | M5n | M5zn | M6a | M6g | M6i | M6in | M7a | M7g | M7i | M7i-flex | M8g | T1 | T2 | T3 | T3a | T4g

    • 计算优化型:C3 | C4 | C5 | C5a | C5n | C6a | C6g | C6gn | C6i | C6in | C7a | C7g | C7gn | C7i | C7i-flex | C8g

    • 内存优化型:R3 | R4 | R5 | R5a | R5b | R5n | R6a | R6g | R6i | R6in | R7a | R7g | R7i | R7iz | R8g | u-3tb1 | u-6tb1 | u-9tb1 | u-12tb1 | u-18tb1 | u-24tb1 | u7i-12tb | u7in-16tb | u7in-24tb | u7in-32tb | X1 | X1e | X2iezn | X8g

    • 加速计算型:G3 | G3s | G5g | Inf1 | P2 | P3 | VT1

    • 高性能计算: Hpc6a | Hpc7a | Hpc7g

    • Metal 实例:具有 Metal 实例大小的上述任何类型。

  • 具有实例存储卷使用以下实例类型之一:M3 | C3 | R3 | X1 | X1e | X2idn | X2iedn

警告
  • 如果停止实例,实例存储卷上的数据将丢失。有关停止实例的更多信息,请参阅 已停止的实例

  • 如果系统状态检查失败,则实例存储和块设备映射的数据可能会丢失。对于这些实例类型,您可以考虑使用 启用终止保护

我们建议您定期创建宝贵数据的备份。有关 Amazon EC2 备份和恢复最佳实践的信息,请参阅 Amazon EC2 最佳实践

您可以使用 AWS Management Console 或 AWS CLI,以查看支持 CloudWatch 基于操作的恢复的实例类型。

Console
查看支持 Amazon CloudWatch 基于操作的恢复的实例类型
  1. 通过以下网址打开 Amazon EC2 控制台:https://console.aws.amazon.com/ec2/

  2. 在左侧导航窗格中,选择 Instance Types(实例类型)。

  3. 在筛选条件栏中,输入 Auto Recovery support: true(自动恢复支持:真)。或者,当您输入字符且过滤条件名称显示时,您可以选择它。

    实例类型表显示了支持 Amazon CloudWatch 基于操作的恢复的所有实例类型。

AWS CLI
查看支持 Amazon CloudWatch 基于操作的恢复的实例类型

请使用 describe-instance-types 命令。

aws ec2 describe-instance-types --filters Name=auto-recovery-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort

配置 CloudWatch 基于操作的恢复

CloudWatch 基于操作的恢复与 StatusCheckFailed_System 指标结合使用。通过 CloudWatch 控制台配置 CloudWatch 基于操作的恢复。要设置 CloudWatch 基于操作的恢复,请参阅 Amazon CloudWatch 用户指南中的向 CloudWatch 警报添加恢复操作

排查 CloudWatch 基于操作的恢复失败

以下问题可能会导致使用 CloudWatch 基于操作的恢复进行实例恢复失败:

  • CloudWatch 基于操作的恢复在 AWS Health Dashboard 中的服务事件期间不起作用。您可能不会收到此类事件的恢复失败通知。要了解最新的服务可用性信息,请参阅服务运行状况页面。

  • 替换硬件的临时容量不足。

  • 该实例已达到每天的恢复尝试操作限制。如果自动恢复失败,并且确定硬件性能下降是初始系统状态检查失败的根本原因,那么您的实例随后可能会被停用。

如果尽管多次尝试恢复,但实例的系统状态检查失败仍然存在,请参阅对状态检查失败的实例进行故障排除以获取更多指导。