MTTD の削減 - 可用性およびその他:AWS の分散システムの回復力の理解と向上

MTTD の削減

障害のある MTTD を減らすことで、障害を可能な限り早期発見することができます MTTD の短縮は、可観測性、つまりワークロードの状態を把握するためにどのように計測したかに基づいています。カスタマーは、問題がいつ発生したかを事前に特定する方法として、ワークロードの重要なサブシステムでカスタマーエクスペリエンス指標をモニタリングする必要があります (これらの指標の詳細については、「付録1 — MTTD と MTTR の重要なメトリクス」を参照)。カスタマーは Amazon CloudWatch Synthetics を使用して API やコンソールを監視する canary を作成して、ユーザーエクスペリエンスを積極的に測定できます。Elastic Load Balancing (ELB) ヘルスチェックAmazon Route 53 ヘルスチェックなど、MTTD を最小限に抑えるために使用できるヘルスチェックメカニズムは他にも多数あります。(「Amazon Builders' Library — ヘルスチェックの実装」を参照。)

また、モニタリングでは、システム全体と個々のサブシステムの両方の部分的な障害を検出できる必要があります。可用性、障害、レイテンシーのメトリックスでは、障害分離の境界の次元性を CloudWatch メトリクスディメンションとして使用する必要があります。例えば、us-east-1 リージョンの use1-az1 AZ にある、セルベースアーキテクチャの一部である単一の EC2 インスタンスが、コントロールプレーンサブシステムの一部であるワークロードの更新 API の一部であるとします。サーバーがメトリクスをプッシュすると、インスタンス ID、AZ、リージョン、API 名、サブシステム名をディメンションとして使用できます。これにより、可観測性を確保し、これらの各ディメンションにわたってアラームを設定して障害を検出できます。