配置 CloudWatch 基于操作的恢复
重要
以下信息适用于在运行正常的实例上配置与恢复相关的功能。如果您目前在访问实例时遇到困难,请参阅 EC2 实例问题排查。
为了让您的工作负载在成功恢复实例后正常运行,您的实例必须在无需手动干预的情况下启动并接受流量。
您可以配置 Amazon CloudWatch 基于操作的恢复,将恢复操作添加到 Amazon CloudWatch 警报中。CloudWatch 基于操作的恢复与 StatusCheckFailed_System
指标结合使用。CloudWatch 基于操作的恢复可提供分钟级恢复响应时间粒度,以及有关恢复操作和结果的 Amazon Simple Notification Service(Amazon SNS)通知。与简化的自动恢复相比,这些配置选项可以更精细地控制系统状态检查失败事件响应,从而更快地尝试恢复。有关可用 CloudWatch 选项的更多信息,请参阅实例的状态检查。
Amazon CloudWatch 基于操作的恢复在 AWS Health Dashboard 中的服务事件期间不起作用。有关更多信息,请参阅 排查 CloudWatch 基于操作的恢复失败。
CloudWatch 基于操作的恢复的要求和限制
CloudWatch 基于操作的恢复会在实例符合以下条件时尝试恢复实例:
-
处于
running
状态。有关更多信息,请参阅 Amazon EC2 实例状态更改。 -
使用
default
(按需)或dedicated
实例租赁。有关更多信息,请参阅 Amazon EC2 账单和购买选项。 -
属于 Amazon EC2 具有可用容量的实例类型。在某些情况下,例如严重中断,将没有充足的可用容量,并且某些恢复尝试可能会失败。
-
不使用
host
实例租赁。对于 Amazon EC2 专属主机,您可以使用专属主机自动恢复功能自动恢复运行状况不佳的实例。 -
不使用 Elastic Fabric Adapter。
-
不是 Auto Scaling 组的成员。
-
目前未进行定期维护事件。
-
使用以下其中一种实例类型:
-
通用型:A1 | M3 | M4 | M5 | M5a | M5n | M5zn | M6a | M6g | M6i | M6in | M7a | M7g | M7i | M7i-flex | M8g | T1 | T2 | T3 | T3a | T4g
-
计算优化型:C3 | C4 | C5 | C5a | C5n | C6a | C6g | C6gn | C6i | C6in | C7a | C7g | C7gn | C7i | C7i-flex | C8g
-
内存优化型:R3 | R4 | R5 | R5a | R5b | R5n | R6a | R6g | R6i | R6in | R7a | R7g | R7i | R7iz | R8g | u-3tb1 | u-6tb1 | u-9tb1 | u-12tb1 | u-18tb1 | u-24tb1 | u7i-12tb | u7in-16tb | u7in-24tb | u7in-32tb | X1 | X1e | X2iezn | X8g
-
加速计算型:G3 | G3s | G5g | Inf1 | P2 | P3 | VT1
-
高性能计算: Hpc6a | Hpc7a | Hpc7g
-
Metal 实例:具有 Metal 实例大小的上述任何类型。
-
-
具有实例存储卷并使用以下实例类型之一:M3 | C3 | R3 | X1 | X1e | X2idn | X2iedn
警告
我们建议您定期创建宝贵数据的备份。有关 Amazon EC2 备份和恢复最佳实践的信息,请参阅 Amazon EC2 最佳实践。
您可以使用 AWS Management Console 或 AWS CLI,以查看支持 CloudWatch 基于操作的恢复的实例类型。
配置 CloudWatch 基于操作的恢复
CloudWatch 基于操作的恢复与 StatusCheckFailed_System
指标结合使用。通过 CloudWatch 控制台配置 CloudWatch 基于操作的恢复。要设置 CloudWatch 基于操作的恢复,请参阅 Amazon CloudWatch 用户指南中的向 CloudWatch 警报添加恢复操作。
排查 CloudWatch 基于操作的恢复失败
以下问题可能会导致使用 CloudWatch 基于操作的恢复进行实例恢复失败:
-
CloudWatch 基于操作的恢复在 AWS Health Dashboard 中的服务事件期间不起作用。您可能不会收到此类事件的恢复失败通知。要了解最新的服务可用性信息,请参阅服务运行
状况页面。 -
替换硬件的临时容量不足。
-
该实例已达到每天的恢复尝试操作限制。如果自动恢复失败,并且确定硬件性能下降是初始系统状态检查失败的根本原因,那么您的实例随后可能会被停用。
如果尽管多次尝试恢复,但实例的系统状态检查失败仍然存在,请参阅对状态检查失败的实例进行故障排除以获取更多指导。