災害対策のテスト
災害対策の実装をテストして実装を検証し、ワークロードの DR 用リージョンへのフェイルオーバーを定期的にテストして RTO と RPO が満たされていることを確認します。
回避すべきなのは、めったに実行されない復旧経路を作ることです。たとえば、読み取り専用のクエリに使用されるセカンダリデータストアがあるとします。データストアの書き込み時にプライマリデータストアで障害が発生した場合、セカンダリデータストアにフェイルオーバーします。もしこのフェイルオーバーを頻繁にテストしない場合、セカンダリデータストアの機能に関する前提が正しくない可能性があります。前回のテスト時には十分であったセカンダリの容量が、今回のシナリオでは負荷に耐えられなくなったり、セカンダリリージョンのサービスクォータが十分でなかったりする場合があります。
エラー復旧が有効に機能するのは、頻繁にテストしている復旧経路に限られることが、これまでの経験から明らかです。この理由のため、復旧経路の数を少なくすることが最善です。
復旧パターンを確立して定期的にテストすることができます。復旧経路が複雑または重大な場合は、さらに本番環境で該当する障害を定期的に実行し、復旧経路が正常に機能することを検証する必要があります。
DR 用リージョンで設定ドリフトを管理します。インフラストラクチャ、データ、設定が DR 用リージョンで必要とされる状態であることを確認します。例えば、AMI とサービスクォータが最新であることを確認します。
AWS Config