災害対策のテスト - AWS でのワークロードの災害対策: クラウド内での復旧

災害対策のテスト

災害対策の実装をテストして実装を検証し、ワークロードの DR 用リージョンへのフェイルオーバーを定期的にテストして RTO と RPO が満たされていることを確認します。

回避すべきなのは、めったに実行されない復旧経路を作ることです。たとえば、読み取り専用のクエリに使用されるセカンダリデータストアがあるとします。データストアの書き込み時にプライマリデータストアで障害が発生した場合、セカンダリデータストアにフェイルオーバーします。もしこのフェイルオーバーを頻繁にテストしない場合、セカンダリデータストアの機能に関する前提が正しくない可能性があります。前回のテスト時には十分であったセカンダリの容量が、今回のシナリオでは負荷に耐えられなくなったり、セカンダリリージョンのサービスクォータが十分でなかったりする場合があります。

エラー復旧が有効に機能するのは、頻繁にテストしている復旧経路に限られることが、これまでの経験から明らかです。この理由のため、復旧経路の数を少なくすることが最善です。

復旧パターンを確立して定期的にテストすることができます。復旧経路が複雑または重大な場合は、さらに本番環境で該当する障害を定期的に実行し、復旧経路が正常に機能することを検証する必要があります。

DR 用リージョンで設定ドリフトを管理します。インフラストラクチャ、データ、設定が DR 用リージョンで必要とされる状態であることを確認します。例えば、AMI とサービスクォータが最新であることを確認します。

AWS Config を利用して、AWS リソースの設定を継続的にモニタリングおよび記録できます。AWS Config は、ドリフトを検出して、AWSSystems Manager Automation をトリガーしてドリフトを修正し、アラームを発生させることができます。AWS CloudFormation では、デプロイしたスタックのドリフトも検出できます。