AWS Resilience Hub の概念 - AWS レジリエンスハブ

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Resilience Hub の概念

これらの概念は、アプリケーションの耐障害性を向上させ、アプリケーションの停止を防ぐための AWS Resilience Hubのアプローチをよりよく理解するのに役立ちます。

回復性

可用性を維持し、ソフトウェアや運用の中断から指定期間内に復旧する機能。

目標復旧時点 (RPO)

最後のデータリカバリポイントからの最大許容時間です。これにより、最後の回復時点からサービスが中断されるまでの間に許容できるデータ損失の程度が決まります。

目標復旧時間 (RTO)

サービスが中断してから復旧するまでの最大許容時間 (遅延)。これにより、サービスが利用できなくなったときに許容できる時間枠が決まります。

ワークロードの推定復旧時間目標

推定ワークロード復旧時間目標 (推定ワークロード RTO) は、インポートされたアプリケーション定義に基づいてアプリケーションRTOが満たすと推定され、評価を実行する です。

ワークロード目標復旧時点

推定ワークロード復旧ポイント目標 (推定ワークロード RPO) は、インポートされたアプリケーション定義に基づいてアプリケーションRPOが満たすと推定され、評価を実行する です。

アプリケーション

AWS Resilience Hub アプリケーションは、障害耐性体制を管理するために継続的にモニタリングおよび評価される、 AWS サポートされているリソースのコレクションです。

アプリケーションコンポーネント

1 つのユニットとして動作および失敗する関連 AWS リソースのグループ。例えば、プライマリデータベースとレプリカデータベースがある場合、両方のデータベースが同じアプリケーションコンポーネント () に属しますAppComponent。

AWS Resilience Hub は、どの AWS リソースがどのタイプの に属できるかを決定します AppComponent。例えば、ある DBInstance が、AWS::ResilienceHub::DatabaseAppComponent に属していても AWS::ResilienceHub::ComputeAppComponent に属さない場合があります。

アプリケーションコンプライアンスステータス

AWS Resilience Hub は、アプリケーションの次のコンプライアンスステータスタイプを報告します。

ポリシーに一致

アプリケーションは、ポリシーで定義されている RTOおよび RPOターゲットを満たすと推定されます。そのコンポーネントはすべて、定義されたポリシー目標を達成しています。例えば、 AWS リージョン間の中断に対して RTOと のRPOターゲットを 24 時間選択したとします。 AWS Resilience Hub は、バックアップがフォールバックリージョンにコピーされていることを確認できます。バックアップの標準運用手順 (SOP) からの復旧を維持し、テストと時間を維持することが期待されます。これは運用上の推奨事項に含まれており、全体的な障害耐性スコアの一部でもあります。

ポリシー違反

アプリケーションは、ポリシーで定義された RTOおよび RPOターゲットを満たすと推定できませんでした。1 つ以上の がポリシーの目標を達成 AppComponents していません。例えば、 AWS リージョン間の中断に対して RTOと のRPOターゲットを 24 時間に選択したが、データベース設定にグローバルレプリケーションやバックアップコピーなどのクロスリージョンリカバリ方法が含まれていないとします。

評価は行われていません

申請には評価が必要です。現在、評価も追跡もされていません。

変更が検出されました

まだ評価されていない新しい発行済みバージョンのアプリケーションがあります。

ドリフト検出

AWS Resilience Hub は、アプリケーションの評価の実行中にドリフト通知を実行して、 AppComponent 設定の変更がアプリケーションのコンプライアンスステータスに影響を与えたかどうかを確認します。さらに、アプリケーションの入力ソース内のリソースの追加や削除などの変更もチェックおよび検出し、そのことを通知します。比較のために、 は、アプリケーションコンポーネントがポリシーを満たした以前の評価 AWS Resilience Hub を使用します。 は、次のタイプのドリフト AWS Resilience Hub を検出します。

  • アプリケーションポリシードリフト — このドリフトタイプは AppComponents 、前の評価でポリシーに準拠していたが、現在の評価で準拠に失敗したすべての を識別します。

  • アプリケーションリソースドリフト — このドリフトタイプは、現在のアプリケーションバージョンのドリフトされたリソースをすべて識別します。

障害耐性評価

AWS Resilience Hub は、ギャップと潜在的な対策のリストを使用して、災害から回復して継続するために、選択したポリシーの有効性を測定します。各アプリケーションコンポーネントまたはアプリケーションのポリシー遵守状況を評価します。このレポートには、コスト最適化に関する推奨事項と潜在的な問題に関する参考資料が含まれています。

障害耐性スコア

AWS Resilience Hub は、アプリケーションの障害耐性ポリシー、アラーム、標準運用手順 (SOPs)、およびテストを満たすための推奨事項にアプリケーションがどの程度準拠しているかを示すスコアを生成します。

中断タイプ

AWS Resilience Hub は、次のタイプの停止に対する障害耐性を評価するのに役立ちます。

アプリケーション

インフラストラクチャは正常だが、アプリケーションまたはソフトウェアスタックは必要に応じて動作しません。これは、新しいコードのデプロイ、設定の変更、データの破損、またはダウンストリームの依存関係の誤動作の後に発生することがあります。

[クラウドインフラストラクチャ]

システム停止のため、クラウドインフラストラクチャが期待どおりに機能していません。1 つ以上のコンポーネントのローカルエラーが原因で、機能停止が発生する可能性があります。ほとんどの場合、この種の機能停止は、障害のあるコンポーネントを再起動、リサイクル、またはリロードすることで解決されます。

[クラウドインフラストラクチャ AZ の中断]

1 つ以上のアベイラビリティーゾーンが使用できません。このタイプの障害は、別のアベイラビリティーゾーンに切り替えることで解決できます。

[クラウドインフラストラクチャリージョンインシデント]

1 つ以上のリージョンが利用できません。このタイプのインシデントは、別の AWS リージョンに切り替えることで解決できます。

故障注入実験

AWS Resilience Hub では、さまざまなタイプの停止に対するアプリケーションの耐障害性を検証するためのテストを推奨しています。停止には、アプリケーション、インフラストラクチャ、アベイラビリティーゾーン (AZ)、またはアプリケーションコンポーネントの AWS リージョン インシデントが含まれます。

これらの実験では、次の作業を行うことができます。

  • 障害を発生させます。

  • アラームが停止を検出できることを確認します。

  • 復旧手順または標準運用手順 (SOPs) が正しく動作して、停止からアプリケーションを復旧することを確認します。

SOPs 測定の推定ワークロードRTOと推定ワークロードのテストRPO。さまざまなアプリケーション設定をテストし、出力 RTO と がポリシーで定義された目的RPOを満たしているかどうかを測定できます。

SOP

標準運用手順 (SOP) は、停止やアラームが発生した場合にアプリケーションを効率的に復旧するように設計された一連の規範的な手順です。アプリケーション評価に基づいて、 は のセット AWS Resilience Hub を推奨SOPsします。また、タイムリーな復旧を確保するために、中断SOPsの前に準備、テスト、測定することをお勧めします。